【解説動画付】ABBYY FlexiCapture 検証ステーションについて

OCRは100%の認識精度を保証するものではありません。これは、AI-OCRも同様です。AIと言う革新的な技術を使ってOCR処理しても、正しく認識せずに誤読する場合があります。 

伝票Noを例にあげてみます。伝票Noはアルファベットと数字が混在している場合が多いのではないでしょうか。このようなパターンの場合、 “0”と“O”(ゼロとオー)、“1”と“I”(イチとアイ)、“5”と“S”(ゴとエス)などが誤読する可能性が高くなります。 

帳票をOCR処理し、OCR結果の出力ファイルをそのままチェック無しで後続の業務で利用できる事は多くないでしょう。大半は後続業務でOCR結果を活用する前に、ヒトによるOCR結果の確認並びに修正作業が必要です。 

今回のコラムでは、ABBYY FlexiCaptureの中でユーザ向けに特化したツール「検証ステーション」について詳しく説明します。 

検証ステーションとは? 

ABBYY FlexiCaptureでは、「検証ステーション」と呼ばれるOCR結果を確認・修正するアプリケーションを搭載しています。検証ステーションは、検証作業を効率化するため非常に多くの有効なツールを用意しています。ここでは、実際にどんな機能があるのか、主要な機能について実際の操作画面をもとにご紹介しましょう。 

本画面は、OCRした帳票の一覧結果を表示する画面になります。検証ステーションにログインし、一覧チェックのアイコンをクリックすることで本画面が表示します。 

主要な項目列についてそれぞれ解説します。 

1.エラー: 

文書を認識し、何らかのエラーがある場合、この列に赤フラグが立ちます。 
例えば、日付・金額の書式エラー、金額の合計値チェックエラー等です。 
また、黄フラグは、警告を示します。桁が不足、必須項目以外で値が取得できなかった場合等に黄色いフラグが立ちます。赤(エラー)、黄(警告)どちらのフラグ設定とするかは、ルール設定にてご自身で設定が可能です。 

2.名前: 
設定した定義に合致した文書名を表示します。今回の例でいうと、「DXXX_請求書」という設定に合致したものを表示しています。もし、どの設定した定義にも合致しない場合は、以下の様に“不明な文書”として表示します。 

3.確かに認識された文字: 
OCRされた文字の内、ABBYYが正しく認識できたと判断した文字の割合と文字数を表示します。信頼率と呼ばれ、信頼率が高ければ高い程OCRが自信を持って結果を取得したことになります。 

4.不明確な文字: 
「確かに認識された文字」の逆で、文字は認識したが正しいかどうか不明な文字数の割合を表示します。 

5.検証用の文字: 
不明確な文字の文字数+エラーが発生している文字数の割合になります。 

6.ソース: 
OCRを行った文書のファイル名になります。 

※今回ご紹介した列は一例となります。これ以外にも表示可能な列やご自身でカスタマイズした列情報を表示することなども可能です。 

実際の挙動を動画で確認

ここからは、OCRした結果を実際に確認・補正する画面について、動画を使ってご紹介します。 

OCR結果一覧画面より、任意の行をダブルクリックすることで帳票単位にOCR結果を確認する画面に遷移します。 

左がOCRの対象帳票、右側がOCRした結果を表示しています。実際にOCRした画像を見ながら結果を確認することができるようになっています。動画の様に左右を反転、上下に変更と担当者が利用しやすい様に変更する事も可能です。 

それ以外にも、OCRした結果の並びや配列の変更、色合い等それぞれの好みに合わせたカスタマイズも可能です。 

左側の対象帳票と、右側のOCRした項目はリンクしています。 

OCRした項目の上にカーソルをあてると、左側の対象帳票のどの部分がOCRしたのか対象帳票の項目の上に薄い黄色のハイライト枠で示してくれます。また、OCRした項目上でキーボードの[←][→]をクリックすると、黄色のハイライトされた文字列内で赤く囲われた枠も一文字ずつ連動し動作します。カーソルを別のOCRした項目に移動した場合、帳票上の黄色のハイライト枠が合わせて移動します。 

このように、OCRした項目対象帳票の項目が連動して動くため、異なるフォーマットの帳票で合ってもわざわざ項目を探すような手間を省き、結果の確認・補正に注力できるような作りになっています。 

途中OCRした項目(今回の動画で言うとBranch、Suppliers)の一部分が赤文字表示していますが、この赤文字は最初の一覧画面で説明したABBYYがOCR処理した結果自信がないと判断した文字です。OCRが読み取った結果として、自信がない文字は注意すべきということで注意表記をする自動の仕組みが備わっています。 

今回のサンプルでは、赤く注記表記した文字も誤読はしていませんでした。赤文字で合っても必ず誤読しているわけではありませんのでご注意ください。 

続いて、次の帳票のOCR結果も確認してみましょう。一つ目の帳票のOCR結果が終わった後、上部アイコンの、[次の文書]をクリックすると、次の帳票のOCR結果画面に移動できます。 

二つ目の帳票は、OCR結果一覧画面で、赤フラグ(エラー)になっていた帳票です。

右下にはエラーが発生している項目、エラーの内容を表示しています。このエラーの内容をクリックすると、エラーの項目にカーソルが移動します。 

今回例にあげた帳票で発生しているエラー項目はPaymentDate(支払日)です。エラーの内容はフォーマット不正(YYYYMMDD)となっています。OCR処理した文字の結果を確認すると、正しく読み取られていますが、月が“6”のままで、YYYYMDDの形になっています。そのため、YYYYMMDDのフォーマットに該当しないと判断し、エラーになってしまっています。 

今回の場合、月の“6”を“06”に直接変更する事で、指定するフォーマットに合致し、エラーが解消しました。 

※今回は、画面例を紹介するにあたりあえてフォーマットエラーを発生させていますが、例のような一桁月の場合、一桁目にゼロ埋め入力するといった自動補正の設定も可能です。 

また別のOCR結果の確認画面に遷移してみましょう。 

この帳票は黄フラグ(警告)が発生しています。 
御覧頂くと分かると思いますが、二つの項目で警告が発生している状態です。 

今回、黄フラグ(警告)が発生している原因は、対象の項目取得に失敗しているためです。対象項目の取得に失敗したのは幾つか理由があります。 

対象項目を取得するために指定したキーワード取得に失敗した(例:BillingAmountを取得するための「合計」「合計金額」等の単語)、キーワードとの位置関係が予期しないパターン、取得したい文字が罫線に重なる・フォントが小さい等です。 

画面右下のエラーボックスよりBillingAmountをクリックすると、帳票画面は総額の場所に移動しました。これは、BillingAmountのキーワード(総額)は正しく認識できている状態です。ただキーワードと取得項目の取得範囲の位置が正しくなく、値が取れなかった様です。 

ここで、ヒトによる修正が必要になるのですが、今回は簡単に修正入力が可能な方法をお教えしましょう。 

帳票の総額欄にマウスのカーソルを持っていくと、\530の周りが青くなります。 
この青くなった部分はABBYYがOCR処理を行った時に文字として認識できた個所です。 
そしてそのまま\530をクリックすると認識されている文字が、右側の項目に反映します。 

続いて、2つ目の警告OrderNoを試してみましょう。今回は、クリックするのではなく取得したい文字を囲む方法を使ってみます。該当箇所に移動し、項目(P000002755)を直接クリックするのではなく、周りを囲みます。すると、BillingAmount同様に右側の項目に囲んだ値の結果が反映します。 

これも検証ステーションの機能の一つです。即座にOCR処理を実行し、選択・囲った部分の値を取得してくれるのです。 

まとめ 

いかがでしょうか?検証ステーションはOCR結果の確認・修正を行うにあたって、いかに誤読項目を探す手間・訂正する手間を軽減する機能が備わっているか、少しでもご理解いただけたら幸いです。 

本ステーションを活用することにより、昨今のコロナ禍においては副次的な効果も発揮します。原本を見てのデータ転記、原本を見てのチェック作業等。このような業務も本ツールを活用することで、出社せずに自宅やサテライトオフィス等テレワーク環境でも業務を継続することが可能です。 

今回は、検証ステーションについてご紹介させて頂きましたが、まだまだ本コラムでご紹介しきれていない機能や事例等も多くございます。気になる方はぜひデジタルレイバー問合せ窓口までご連絡ください。 

この記事をシェアする

前の記事

はじめての Blue Prism (3)― 例外処理

次の記事

【 Blue Prism Tips】アタッチできない!もしかしたら管理者権限でしか実行でき…