GroupDocs.Text for .NET


ドキュメントからテキストを抽出できる .NET API

あらゆる .NET アプリケーション内で、メタデータ情報を含むメール、ZIP ファイル、法的文書などのさまざまなファイル形式から RAW テキストや書式付きテキストを抽出

GroupDocs.Text for .NET

GroupDocs.Text for .NET は、ドキュメントのテキストを抽出できる優れた API です。専用のドキュメント リーダーをインストールすることなく、Microsoft Word、Excel、PowerPoint、メール、ZIP アーカイブなど他のファイルを含むコンテナー ファイル、プレーン テキスト ファイル、HTML などからテキストやメタデータを抽出します。GroupDocs.Text for .NET は、これまでにない精度とスピードで操作を実行します。また、UTF-32LE、UTF-32BE、UTF-16LE、UTF-16BE などのエンコーディングを検出する便利なツールも提供しています。


概略図

.NET テキスト抽出 API によるドキュメントの RAW テキストおよび書式付きテキスト抽出の概略図


プラットフォームに依存しません

あらゆる .NET アプリケーションからドキュメントのテキストを抽出します。


サポートされるファイル形式

GroupDocs.Text for .NET は、Microsoft Word、Excel、PowerPoint、TXT、HTML および MHTML ファイルをサポートします。


  • RAW テキストおよび書式付きテキストの抽出
  • メタデータの抽出
  • ZIP アーカイブなど他のファイル形式を含むコンテナー ファイルからのテキスト抽出
  • TXT、マークダウン、HTML ファイルからの書式付きテキスト抽出
  • エンコーディング検出機能のサポート
  • メディア タイプの検出機能のサポート

GroupDocs.Text for .NET は、さまざまなテキスト抽出クラスを提供します。さらに、以下のようなさまざまなファイルのエンコーディングやメディア タイプを検出する便利なツール クラスも使用できます。

  • 電子メール メッセージからテキストを抽出できる EmailTextExtractor や EmailFormattedTextExtractor クラス
  • テキスト、書式設定されたエクストラクター、コンテナーを生成できる ExtractorFactory クラス
  • 異なるエンコードをデコードできる EncodingDetector クラス
  • 対応するファイルのメディア タイプを検出する、各カスタム メディア タイプ検出のための MediaTypeDetector 抽象クラス

コンテナーは、ZIP アーカイブなどの他のドキュメントを含むファイルを扱うことができます。GroupDocs.Text for .NET では、ost-container などのコンテナーからメッセージを抽出できます。

GroupDocs.Text for .NET API は、下記の Microsoft Office ドキュメント、テキストおよび HTML のファイル形式をサポートしています。

  • OOXML ドキュメント: DOCX
  • OOXML マクロ有効ドキュメント: DOCM
  • Word ドキュメント 97-2003: DOC
  • リッチ テキスト形式: RTF
  • OpenDocument テキスト: ODT
  • OOXML 2007-2010: XLSX
  • OOXML マクロ有効ブック: XLSM
  • OOXML バイナリ ブック: XLSB
  • Excel ブック 97-2003: XLS
  • カンマ区切り値: CSV
  • OpenDocument スプレッドシート: ODS
  • OOXML プレゼンテーション: PPTX
  • OOXML スライドショー: PPSX
  • OOXML マクロ有効プレゼンテーション: PPSM
  • PowerPoint プレゼンテーション 97-2003: PPT
  • PowerPoint スライドショー 97-2003: PPS
  • OpenDocument プレゼンテーション: ODP
  • テキスト形式: TXT
  • HTML ドキュメント: HTML (.xhtml, .htm)
  • Web アーカイブ、単一のファイル: MHTML (.mht)



ページトップへ