GroupDocs.Parser for Java


データを抽出する Java 分析 API

ドキュメント、プレゼンテーション、アーカイブ、メールからメタデータで画像やテキストを分析、抽出できる Java API

GroupDocs.Parser for Java

GroupDocs.Parser for Java は、RAW テキスト、書式付きテキストの解析をサポートするビジネス アプリケーションをビルドできる優れた API です。サポートされている形式のファイル メタデータを取得することもできます。スプレッドシート、プレゼンテーション、PDF、ZIP アーカイブなど、さまざまな形式のパスワードで保護されたファイルからテキストとメタデータを抽出できます。


概略図

API の概要


プラットフォームに依存しません

サポートされる環境


サポートされるファイル形式

以下のファイル形式をサポートします


  • 単一または複数のドキュメントの単語数を統計的にカウント
  • Document Reader をインストールせずにファイルまたはストリームからテキストを取得
  • 高速または標準テキスト抽出モードを使用して文書からフォーマット済みテキストを
  • パスワード保護された XML 文書のメディア タイプを検出し、テキストを取得
  • 電子メールおよび添付ファイル内からフォーマットされたテキストをプログラムで取得
  • OneNote ドキュメントの 1 ページまたは複数ページからテキストを抽出
  • PDF ファイルまたは PDF ポートフォリオからテキストを抽出
  • PDF フォームからデータを抽出し、PDF または Word から書式付きの表を取得
  • PowerPoint プレゼンテーションから書式付きテキストを取得、または特定のスライドからテキストを削除
  • Excel 上でセル、行、および列から RAW テキストまたは書式付きテキストを収集
  • Word から RAW または HTML フォーマットのテキストを抽出
  • EPUB、CHM、Markdown、FB2 ファイルから一文または全文を抽出
  • EPUB および CHM ドキュメントからの目次の抜粋
  • 分析のために文書からテキスト領域を取得し、コンテンツ構造をそのまま使用したテキストの抽出
  • サポートされているドキュメントフォーマットからメタデータを取得
  • サポートされているフォーマットからすべてまたは選択した画像を取得し、抽出した画像を回転
  • Zip アーカイブおよび OST コンテナー内のファイルからテキストを抽出
  • 電子メール コンテナーからデータを取得 (Exchange Web サーバー、POP3、IMAP)
  • 高速で信頼性が高く効率的な方法でデータベース コンテナーからテキストを抽出
  • テキスト、単語全体、および文書内の正規表現を検索
  • 文書内のハイライト表現の検索と抽出
  • プレーン テキスト フォーマッター (シンプルおよび ASCII) またはマークダウン フォーマッターを使用してテキストを取得
  • マークダウン フォーマッターはフォント、ハイパーリンク、見出し、リスト、表のフォーマットをサポート
  • HTML フォーマッターは段落、ハイパーリンク、フォント、見出し、リスト、表のフォーマットをサポート

GroupDocs.Parser for Java を使用すると、さまざまなフォーマッターをテキストおよび HTML に適用できます。プレーン テキスト フォーマッターでテキストを抽出できます。また、HTML フォーマッターでテキストを取得したり、段落、ハイパーリンク、フォント、見出し、リスト、表にフォーマットを適用することもできます。



ページトップへ