この記事は公開から 1 年以上経過しています。

フォーム認識精度を向上させるための方法とは

正確なフォーム認識ができなければ、開発者は効果的なフォーム処理アプリケーションを構築することができません。フォーム処理ワークフローの主な利点は、データ キャプチャ プロセスを自動化できることですが、システムがフォームを誤って認識したり、正確なデータ キャプチャのためにドキュメント画像をきれいに揃えられなかったりすると、自動化の利点はすぐに失われてしまいます。 Accusoft の FormFix SDK は、フォーム画像を事前に定義されたテンプレートに素早くマッチングし、位置合わせすることで、フォーム処理アプリケーションが可能な限り最高のスタートを切れるようにします。

FormFix を使用する場合

FormFixは、固定位置にフィールドが配置された標準的なレイアウトの構造化されたフォームに対応しています。この SDK には、フォーム処理やデータ キャプチャのワークフローの一部として、さまざまな使用例があります。その主な機能は、フォーム画像を識別し、適切な宛先に転送することです。認識したフォームを SmartZone 統合に渡し、光学式文字認識 (OCR)インテリジェント文字認識 (ICR) を実行して、フォーム フィールドから印刷されたテキストを抽出するというケースもあります。すぐにデータを取得する必要がない場合は、後で参照できるようにフォームを保管場所に転送することもできます。

しかし、FormFix は単にフォームを識別するだけではありません。FormFix は、強力な光学式マーク認識 (OMR) 機能を備えており、さまざまなフォームで一般的に使用されている塗りつぶし可能なバブルやチェックボックスのマークを検出することができます。OMR がないと、フォーム処理アプリケーションは、これらのマークが含まれるフォームのデータを手動で入力しなければなりません。これらのマークは、一般的に、性別、配偶者の有無、健康状態、民族的背景など、さまざまな人口統計データなどの情報を示します。OMR を導入して自動処理することで、人的エラーのリスクを最小限に抑え、処理時間を短縮することができます。FormFix では、単一または複数のマークを読み取ることができるだけでなく、OMR を使用して文書上の署名の有無を検出することもできます。 

識別用のマスター フォーム テンプレートの作成

FormFix がフォーム画像の識別を始める前に、まず、FormSet が必要です。 FormSet は複数の FormDefinition で構成されており、各 FormDefinition はドキュメントのフォーム ページを表しています。すべての FormDefinition オブジェクトは、フォーム テンプレートの圧縮された画像データを含み、データを抽出できるフィールドを示しています。また、個々のフィールドには、処理時に実行すべき特定の指示を関連付けることができます。これには、スペックル除去や他の形式の画像エンハンスメントやクリーンアップが含まれます。 

FormSet は、FormDirector の API によって作成され、開発者はどのような情報をフォームのどこから抽出するかを指定することができます。例えば、米国納税用の青色申告の IRS 1040 フォームの FormSet テンプレートを設定すると、未記入のフォームのどのフィールドを照合して位置を合わせ、そこに含まれる情報を正確に取り込むかを指定することができます。FormAssist アプリケーションは、FormDirector のグラフィカルなインターフェースで、空白のフォームイメージをアップロードし、各フィールドの処理方法を簡単に指定することができます。

FormFix によるフォーム画像の識別方法

フォーム画像がアップロードされ、(通常は ScanFix Xpress SDK を使用して) クリーンアップされた後、データ取得のために画像を識別し、位置合わせを行います。FormFix は、フォーム認識プロセッサを使って、入力された画像を調べ、ファイルにある利用可能な FormSet と比較します。FormSet の中の FormDefinition を見て、埋め込まれたテンプレート画像を現在の入力画像と照合します。一致する可能性があるものが特定されると、FormFix は適切なテンプレートを選択し、すべての識別候補に対して信頼性の値を提供します。

複数の登録フォームの中から一致する フォームを検出

次に、FormFix のアライメント アルゴリズムが、入力画像をフォーム テンプレート上に配置し、フィールド エリアが可能な限り正確に並ぶように一連の調整を行います。また、フォーム画像のドロップ アウトを実行することもできます。これは、フォーム フィールド ボックスや説明テキストなど、テンプレートにあらかじめ印刷されているグラフィック要素を削除し、入力された情報だけを残すものです。これにより、SmartZone OCR/ICR や FormFix の OMR 機能を使用しているアプリケーションの認識精度を向上させることができます。

読み込んだフォームを登録されたフォームに 位置合わせ

フォームの罫線や印刷されている文字などをドロップし、必要な情報のみ抽出

FormFix のフォーム認識の改善

FormFix は、アプリケーションがファイルに保存しているマスター フォームとフォーム画像をすばやく照合することができますが、フォーム認識プロセスを合理化し、ワークフローのパフォーマンスを向上させるために、開発者ができるいくつかのステップがあります。例えば、FormFix は、90度、180度、270度の画像のみを比較するように設定したり、フォームの識別時に特定の量の労力をかけるように設定することができます。 

テンプレートを設定する際、開発者は各画像入力に対してどのような画像処理を行う必要があるかを定義することができます。これらのパラメータは階層ごとに設定できるので、すべてのフォームに適用される操作もあれば、特定の FormDefinition やフォームフィールドにのみ適用される操作もあります。これにより、ワークフローを遅らせる原因となる不要な画像処理を排除しつつ、必要な箇所に一貫した調整を行うことができます。

可能であれば、異なるフォームタイプにバーコードを貼り付けて、フォームのアライメント プロセスでどのテンプレートを参照する必要があるかをすぐに示すことができます。これにより、FormFix は識別プロセスをバイパスして、ドロップアウトと認識のためのフォーム画像のアライメントに直接進むことができます。 

FormFix でフォーム処理ワークフローを加速する

Accusoft の FormFix SDK は、フォーム処理アプリケーションがフォーム画像をすばやく識別し、ゾーンやフルページ OCR/ICR のためにドキュメントを準備し、OMR 機能で情報を抽出するのに役立ちます。フォーム ワークフローのニーズに合わせて完全にカスタマイズ可能な FormFix には、欠陥やノイズを除去して認識精度を向上させることができる様々な画像クリーンアップツールも含まれています。

FormFix SDK の詳細については、FormFix のファクトシートをダウンロードしていただくか、弊社営業までお問い合わせください。

Accusoft 製品の日本語カタログはこちら。

フォーム処理製品

FormFix 製品の詳細は、こちら

FormSuite for Structured Form 製品の詳細は、こちら

参照ブログ記事 (開発元の Accusoft 社ブログ):  How FormFix Achieves Better Forms Recognition Accuracy