GroupDocs.Parser for Java


ドキュメント データを抽出できる API ライブラリ

ドキュメント、プレゼンテーション、アーカイブ、メールからメタデータで画像やテキストを分析、抽出できる Java API

GroupDocs.Parser for Java

GroupDocs.Parser for Java は、RAW テキスト、書式付きテキストの解析をサポートするビジネス アプリケーションをビルドできる優れた API です。サポートされている形式のファイル メタデータを取得することもできます。スプレッドシート、プレゼンテーション、PDF、ZIP アーカイブなど、さまざまな形式のパスワードで保護されたファイルからテキストとメタデータを抽出できます。


概略図

API の概要


プラットフォームに依存しません

サポートされる環境


サポートされるファイル形式

以下のファイル形式をサポートします


  • 単一または複数のドキュメントの単語数を統計的にカウント
  • ドキュメント リーダーをインストールせずにファイルまたはストリームからテキストを取得
  • 高速または標準テキスト抽出モードを使用して文書から書式設定済みテキストを
  • パスワード保護された XML 文書のメディア タイプを検出し、テキストを取得
  • 電子メールおよび添付ファイル内から書式設定されたテキストをプログラムで取得
  • OneNote ドキュメントの 1 ページまたは複数ページからテキストを抽出
  • PDF ファイルまたは PDF ポートフォリオからテキストを抽出
  • PDF フォームからデータを抽出し、PDF または Word から書式付きの表を取得
  • PowerPoint プレゼンテーションから書式付きテキストを取得、または特定のスライドからテキストを削除
  • Excel 上でセル、行、および列から RAW テキストまたは書式付きテキストを収集
  • Word から RAW または HTML フォーマットのテキストを抽出
  • EPUB、CHM、Markdown、FB2 ファイルから一文または全文を抽出
  • EPUB および CHM ドキュメントからの目次の抜粋
  • 分析のために文書からテキスト領域を取得し、コンテンツ構造をそのまま使用したテキストの抽出
  • サポートされているドキュメント形式からメタデータを取得
  • サポートされているファイル形式からすべてまたは選択した画像を取得し、抽出した画像を回転
  • Zip アーカイブおよび OST コンテナー内のファイルからテキストを抽出
  • 電子メール コンテナーからデータを取得 (Exchange Web サーバー、POP3、IMAP)
  • 高速で信頼性が高く効率的な方法でデータベース コンテナーからテキストを抽出
  • テキスト、単語全体、および文書内の正規表現を検索
  • 文書内の強調表示表現の検索と抽出
  • プレーン テキスト フォーマッター (シンプルおよび ASCII) またはマークダウン フォーマッターを使用してテキストを取得
  • マークダウン フォーマッターはフォント、ハイパーリンク、見出し、リスト、表の書式をサポート
  • HTML フォーマッターは段落、ハイパーリンク、フォント、見出し、リスト、表の書式をサポート

GroupDocs.Parser for Java を使用すると、さまざまなフォーマッターをテキストおよび HTML に適用できます。プレーン テキスト フォーマッターでテキストを抽出できます。また、HTML フォーマッターでテキストを取得したり、段落、ハイパーリンク、フォント、見出し、リスト、表に書式を適用することもできます。



ページトップへ