今回は2つの文字列の相違度(意味でなく表記の違い)をチェックするアクションのご紹介です。
OCRの読み取り結果のチェックにも利用できる便利なアクションです!
いままでやっていた目視チェックが不要になるかもしれません。
ぜひ最後までご覧ください。
今回の対象オブジェクトとアクション
- オブジェクト:NEO - 文字列
- アクション:編集距離(相違度)の計算
NEO - 文字列の無料ダウンロードはこちら
アクションの説明
「編集距離(相違度)の計算」は2つの文字列の相違度(レーベンシュタイン距離)を計算できるアクションです。
計算結果は下記2パターンで出力できます。
- 一方の文字列を他方の文字列と等しくするために必要な操作(挿入・削除・置換)の数
- 距離を長い方の文字列長で割ることで、全体から見た相違部分の割合(0~1)
※以下、具体的な事例で説明しています!
入力で指定可能な項目
- 文字列1:比較したい文字列を指定
- 文字列2:比較したい文字列を指定
- 正規化:出力したいパターンに応じてフラグを指定
- True:距離を長い方の文字列長で割ることで、全体から見た相違部分の割合(0~1)を返します。ただし、2つの文字列がどちらも空文字(長さ0)の場合は正規化フラグと無関係に0を出力します。
- False:一方の文字列を他方の文字列と等しくするために必要な操作(挿入・削除・置換)の数で定義されます。文字列が等しい場合、操作不要なので0。
使用例
以下にフラグ「正規化」の値に応じた出力例をご紹介します。
1.フラグ「正規化」をTrueにした場合の出力結果
フラグ「正規化」をTrueに設定し文字列「あいうえお」と「あいうえこ」を比較した結果、5文字中1文字異なっているため1/5の0.2が出力されます。
2.フラグ「正規化」をFalseにした場合の出力結果
フラグ「正規化」をFalseに設定し文字列「あいうえお」と「あいうえこ」を比較した結果、1文字異なっているため1が出力されます。
おすすめの使用方法
OCRと組み合わせる方法がおすすめです。
OCRの結果を目視チェックする突合作業を省略しロボットでのチェックに置き換えられる可能性があります。
OCRは100%の精度を保証できないので、読み取り結果を確認する必要があります。選択肢など、限られた数の「正しい答え」がある場合は、読み取り結果と正しい答えの間の違いをロボットに計算させることで、確認作業を自動化できます。厳密な業務では人間の目で確認するべきですし、また、違いが小さくない正しい答えが見つからない場合も、人間の判断が必要です。それでも、ロボットに任せられる仕事は増やせます。
1.OCRとは?
OCR(光学文字認識)とは、文字を読み取ってテキストデータにする技術のことです。OCRで読み取ったデータをRPAでシステムに登録するなどRPAと親和性の高い技術です。
OCRについては下記記事もご参照ください。
AI-OCRとは? | 双日テックイノベーション × DIGITAL LABOR (sojitz-ti.com)
2.OCRの精度は100%ではない
精度は読み取る画像の品質に依存するため、正読率100%が保証されない技術です。
そのためOCR処理後に正しく読み取れているか確認し、読み取れていない場合は手作業で修正する必要があります。
【AI-OCR】ABBYY FlexiCaptureとは? | 双日テックイノベーション × DIGITAL LABOR (sojitz-ti.com)
3.OCR読み取り結果のチェック方法
上記の通り、OCRの正読率は100%ではありません。
そこで次に、要求精度の異なる2つの業務ケースについてRPAとの連携方法をご紹介します。
A.100%正しく読み取る必要のある業務
OCR読み取り結果を人が確認・修正のうえ、RPAロボットに渡します。修正結果を元に、RPAロボットが業務処理をおこないます。すなわち、人によるOCR結果の突合作業が必要です。(本記事紹介のアクションは使いません。)
B.精度100%までは求めない業務
OCR読み取り結果をRPAロボットが確認・修正のうえ、業務処理までをおこないます。すなわち、突合作業を「編集距離(相違度)の計算」アクションで代用することにより、OCR読み取り結果をそのままRPAロボットに渡すことができます。(事前に設定した誤読許容範囲内か、RPAロボットがチェックします。)
4.正解データの必要性
ただし、この方法を用いてチェックするためには、OCRでスキャンしたテキストとチェックするための正解データが必要です。そのため、この方法が効果的なのは以下のケースでしょう。
- OCR対象項目が、自由入力項目でなく、有限のパターンからの選択項目であること(例:都道府県、取引先)これらの場合、都道府県マスタや取引先マスタが正解データの役割を果たします。OCR対象項目とマスタデータの各項目との編集距離を計算し、一定以上に小さい項目があれば、その項目を読み取り結果とします。一定以上に小さい項目がなければ、読み取りエラーとして、人間に判断を仰ぐことになります。
当社サービスのご紹介
いかがでしたか?
Blue Prismの開発のご参考になれば幸いです。
NEO - 文字列の無料ダウンロードはこちら
下記、各サービスの問い合わせはこちら
- BP新規導入
- BPライセンスの購入や他社からの乗り換え
- 技術支援、技術相談
- 教育サービス
BP新規導入またはライセンスを他社から乗り換えで、いまなら3時間分の無料問い合わせチケットつき! ※お問い合わせ内容冒頭に【ブログ】とご記入ください。