GroupDocs.Parser for .NET


ドキュメント データを抽出する .NET API

.NET アプリケーション内で、ドキュメント、スプレッドシート、プレゼンテーション、電子メール、アーカイブから、画像、RAW または書式済みテキスト、メタデータを抽出

GroupDocs.Parser for .NET

GroupDocs.Parser for .NET は、C#、ASP.NET およびその他の .NET テクノロジ環境で開発されたビジネス アプリケーション用のテキスト抽出 API です。サポートされている形式のファイルから RAW テキスト、書式付きテキスト、メタデータ抽出をサポートします。スプレッドシート、プレゼンテーション、PDF、ZIP アーカイブなど、さまざまな形式のパスワードで保護されたドキュメントの解析もできます。


概略図

API の概要


プラットフォームに依存しません

サポートされるオペレーティング システムとフレームワーク


サポートされるファイル形式

以下のファイル形式をサポートします


  • 単一または複数のドキュメントの単語数を統計的にカウント
  • ドキュメント リーダーをインストールせずにファイルまたはストリームからテキストを取得
  • 高速または標準テキスト抽出モードを使用して文書からフォーマット済みテキストを取得
  • パスワード保護された XML 文書のメディア タイプを検出し、テキストを取得
  • 電子メールおよび添付ファイル内からフォーマットされたテキストをプログラムで取得
  • OneNote ドキュメントの 1 ページまたは複数ページからテキストを抽出
  • PDF ファイルまたは PDF ポートフォリオからテキストを抽出
  • PDF フォームからデータを抽出し、PDF または Word から書式付きの表を取得
  • PowerPoint プレゼンテーションから書式付きテキストを取得、または特定のスライドからテキストを削除
  • Excel 上でセル、行、および列から RAW テキストまたは書式付きテキストを収集
  • Word から RAW または HTML フォーマットのテキストを抽出
  • HTML フォーマッターは、段落、ハイパーリンク、フォント、見出し、リストおよび表のフォーマットをサポート
  • EPUB、CHM、Markdown、FB2 ファイルから一文または全文を抽出
  • EPUB および CHM ドキュメントからの目次の抜粋
  • コンテンツ構造をそのまま使用したテキストの抽出
  • 分析のために文書からテキスト領域を取得し、サポートされている文書フォーマットからメタデータを抽出
  • サポートされているフォーマットからすべてまたは選択した画像を取得し、抽出した画像を回転
  • Zip アーカイブおよび OST コンテナ内のファイルからテキストを取り出し、データベース コンテナーからテキストを抽出
  • 電子メールコンテナーからデータを取得 (Exchange Web サーバー、POP3、IMAP)
  • テキスト、単語全体、および文書内の正規表現を検索
  • 文書内のハイライト表現の検索と抽出
  • プレーン テキスト フォーマッター (シンプルおよび ASCII) またはマーク ダウン フォーマッターを使用してテキストを取得
  • マークダウン フォーマッターはフォント、ハイパーリンク、見出し、リスト、表のフォーマットをサポート
  • プレーン テキストをフォーマットするためにエッジ、角度、および交点でカスタム フォーマットを実行

API を使用してドキュメントからテキストを抽出する方法は、わずか数行のコードで簡単に実現できます。

            string doc = "sample.docx";

            // ファイルからテキストを抽出
            Console.WriteLine(Extractor.Default.ExtractText(doc));

            // ストリームからテキストを抽出
            using(Stream stream = File.OpenRead(doc))
            {
               Console.WriteLine(Extractor.Default.ExtractText(stream));
            }
          



ページトップへ