GroupDocs.Parser for .NET


ドキュメントからテキストを抽出できる .NET API

あらゆる .NET アプリケーション内で、メタデータ情報を含むメール、ZIP ファイル、法的文書などのさまざまなファイル形式から RAW テキストや書式付きテキストを抽出

GroupDocs.Parser for .NET

GroupDocs.Parser for .NET は、ドキュメントのテキストを抽出できる優れた API です。専用のドキュメント リーダーをインストールすることなく、Microsoft Word、Excel、PowerPoint、メール、ZIP アーカイブなど他のファイルを含むコンテナー ファイル、プレーン テキスト ファイル、HTML などからテキストやメタデータを抽出します。GroupDocs.Parser for .NET は、これまでにない精度とスピードで操作を実行します。また、UTF-32LE、UTF-32BE、UTF-16LE、UTF-16BE などのエンコーディングを検出する便利なツールも提供しています。


概略図

API の概要


プラットフォームに依存しません

サポートされるオペレーティング システムとフレームワーク


サポートされるファイル形式

以下のファイル形式をサポートします


  • RAW テキストおよび書式付きテキストの抽出
  • メタデータの抽出
  • 構造化されたテキストの抽出
  • ハイライトされたテキストの抽出
  • ドキュメント内のテキストの検索
  • ZIP アーカイブなど他のファイル形式を含むコンテナー ファイルからのテキスト抽出
  • TXT、マークダウン、HTML ファイルからの書式付きテキスト抽出
  • エンコーディング検出機能のサポート
  • メディア タイプの検出機能のサポート

GroupDocs.Parser for .NET は、さまざまなテキスト抽出クラスを提供します。さらに、以下のようなさまざまなファイルのエンコーディングやメディア タイプを検出する便利なツール クラスも使用できます。

  • 電子メール メッセージからテキストを抽出できる EmailTextExtractor や EmailFormattedTextExtractor クラス
  • テキスト、書式設定されたエクストラクター、コンテナーを生成できる ExtractorFactory クラス
  • 異なるエンコードをデコードできる EncodingDetector クラス
  • 対応するファイルのメディア タイプを検出する、各カスタム メディア タイプ検出のための MediaTypeDetector 抽象クラス

コンテナーは、ZIP アーカイブなどの他のドキュメントを含むファイルを扱うことができます。GroupDocs.Parser for .NET では、ost-container などのコンテナーからメッセージを抽出できます。

API を使用してドキュメントからテキストを抽出する方法は、わずか数行のコードで簡単に実現できます。

            string doc = "sample.docx";
            // 変換対象のファイルの読み込み
            Console.WriteLine(Extractor.Default.ExtractText(doc));

            //ストリームからテキストを抽出
            using(Stream stream = File.OpenRead(doc))
            {
               Console.WriteLine(Extractor.Default.ExtractText(stream));
            }
          



ページトップへ