GroupDocs.Parser for Java


テキスト抽出、解析できる Java API

メール、ZIP ファイル、法的文書などのさまざまなファイル形式から RAW テキスト、書式付きテキスト、メタデータを抽出

GroupDocs.Parser for Java

GroupDocs.Parser for Java は、テキストやメタデータを抽出できる API です。テキストをコンテナーから抽出できるだけでなく、書式設定されたテキスト、構造化されたテキスト、ハイライトされたテキストなどもサポートされるファイル形式から抽出できます。Microsoft Office、Visio、PDF、メールおよび画像形式がサポートされます。GroupDocs.Parser for Java の API は、これまでにないほどの速さと正確さで処理を実行します。GroupDocs.Parser for Java では、さまざまなエンコード形式を検出する機能も提供されます。


概略図

API の概要


プラットフォームに依存しません

サポートされる環境


サポートされるファイル形式

以下のファイル形式をサポートします


  • RAW テキストおよび書式付きテキストの抽出
  • メタデータの抽出
  • 構造化されたテキストの抽出
  • ハイライトされたテキストの抽出
  • ドキュメント内のテキストの検索
  • ZIP アーカイブなど他のファイル形式を含むコンテナー ファイルからのテキスト抽出
  • TXT、マークダウン、HTML ファイルからの書式付きテキスト抽出
  • エンコーディング検出機能のサポート
  • メディア タイプの検出機能のサポート
  • パスワード保護されたファイルからの抽出
  • 従量制ライセンス オプション

GroupDocs.Parser for Java は、さまざまなテキスト抽出クラスを提供します。さらに、以下のようなさまざまなファイルのエンコーディングやメディア タイプを検出する便利なツール クラスも使用できます。

  • 電子メール メッセージからテキストを抽出できる EmailTextExtractor や EmailFormattedTextExtractor クラス
  • テキスト、書式設定されたエクストラクター、コンテナーを生成できる ExtractorFactory クラス
  • 異なるエンコードをデコードできる EncodingDetector クラス
  • 対応するファイルのメディア タイプを検出する、各カスタム メディア タイプ検出のための MediaTypeDetector 抽象クラス

コンテナーは、ZIP アーカイブなどの他のドキュメントを含むファイルを扱うことができます。GroupDocs.Parser for Java では、ost-container などのコンテナーからメッセージを抽出できます。



ページトップへ