- 単一または複数のドキュメントの単語数を統計的にカウント
- ドキュメント リーダーをインストールせずにファイルまたはストリームからテキストを取得
- 高速または標準テキスト抽出モードを使用して文書から書式設定済みテキストを取得
- パスワード保護された XML 文書のメディア タイプを検出し、テキストを取得
- 電子メールおよび添付ファイル内から書式設定されたテキストをプログラムで取得
- OneNote ドキュメントの 1 ページまたは複数ページからテキストを抽出
- PDF ファイルまたは PDF ポートフォリオからテキストを抽出
- PDF フォームからデータを抽出し、PDF または Word から書式付きの表を取得
- PowerPoint プレゼンテーションから書式付きテキストを取得、または特定のスライドからテキストを削除
- Excel 上でセル、行、および列から RAW テキストまたは書式付きテキストを収集
- Word から RAW または HTML 形式のテキストを抽出
- HTML フォーマッターは、段落、ハイパーリンク、フォント、見出し、リストおよび表の書式をサポート
- EPUB、CHM、Markdown、FB2 ファイルから一文または全文を抽出
- EPUB および CHM ドキュメントからの目次の抜粋
- コンテンツ構造をそのまま使用したテキストの抽出
- 分析のために文書からテキスト領域を取得し、サポートされている文書形式からメタデータを抽出
- サポートされているファイル形式からすべてまたは選択した画像を取得し、抽出した画像を回転
- Zip アーカイブおよび OST コンテナ内のファイルからテキストを取り出し、データベース コンテナーからテキストを抽出
- 電子メールコンテナーからデータを取得 (Exchange Web サーバー、POP3、IMAP)
- テキスト、単語全体、および文書内の正規表現を検索
- 文書内の強調表示表現の検索と抽出
- プレーン テキスト フォーマッター (シンプルおよび ASCII) またはマーク ダウン フォーマッターを使用してテキストを取得
- マークダウン フォーマッターはフォント、ハイパーリンク、見出し、リスト、表の書式をサポート
- プレーン テキストを書式設定するためにエッジ、角度、および交点でカスタム書式を実行
API を使用してドキュメントからテキストを抽出する方法は、わずか数行のコードで簡単に実現できます。
// Parser クラスのインスタンスを生成
using(Parser parser = new Parser("sample.docx"))
{
// リーダーにテキストを抽出
using(TextReader reader = parser.GetText())
{
// ドキュメントのテキストを印刷
// テキストの抽出がサポートされない場合、リーダーは null となる
Console.WriteLine(reader == null ? "Text extraction isn't supported." : reader.ReadToEnd());
}
}