AI技術の進歩によりOCRで検索がより一層便利に

コラム
OCR

必要な電子文書を見つけたい。そんな時、いつも課題にあがっていたのが、「文書に属性情報を付与すれば検索は確実なのだが、その属性情報を文書内から拾い出すのに手間がかかる。」という実状でした。

しかしながら、今、この状況は好転しつつあります。それは、電子帳簿保存法のスキャナー保存条件の緩和、電子取引の検索要件の義務化が、AIOCR技術の進歩を加速し、今や、帳票から「取引年月日」、「取引先」、「取引金額」を抽出することが比較的廉価にできるようになったからです。

このようなAIOCR技術は、もちろん、電子帳簿保存法だけではなく、他の業務にも適用できます。今回はこの技術の進歩を紹介し、その利用用途の拡大について説明します。

OCRの技術の出発点

「OCRは「Optical Character Reader」の略で、元々は紙に書かれた、もしくは印刷された文字をテキストとして読み取る技術でした。類似の技術として、マークシートのマークを読み取るOMR(Optical Mark Readerの略)もあります。いずれも元々は紙に書かれたもしくは印刷した文字、マークに光を当ててそれらを判別していたため、“Optical(光学的)”という用語が含まれています。

これまでのOCRの利用形態

これまでのOCRの利用形態としては、大きくは2種類あります。一つは帳票データの抽出用途と、もう一つは文書検索用途です。以下に簡単に説明します。

(1) 帳票データ抽出用途

帳票とは、「文書の中に、処理のために必要なデータが記載されているもの」と考えて頂ければよいかと思います。

文書内のデータを確実に抽出するには、フォーマットを定型化しておくに越したことはありません。そこで、フォーマットを定型化したものを定型帳票と呼びます。定型帳票は、自社内だけで使用するか、その拡張版として、複数の定型帳票を扱うことがあります。

会員申込書、振込依頼書などは、フォーマットを一つに固定しやすいものですが、請求書、見積書などは、さまざまな取引先から帳票を受け取るので、フォーマットを固定化しづらいものです。フォーマットが一つまたは複数に固定化できないものは、非定型帳票と呼びます。

定型帳票については、これまでは、必要なデータの抽出に紙面上の主に、位置情報を使ってきました。同じ種類の帳票でもフォーマットが異なる場合は、その位置情報の設定等でかなりのSE工数を要してきました。

(2) 文書検索用途

こちらは、文書の内容に意味がある場合に、必要な文書を探し出すために利用されます。紙をスキャンしてイメージデータにしただけでは、コンピュータには文書の内容が理解できません。そのため、イメージデータから文字を認識し、単語化などを行います。

これにより、WORDで作成された文書と同じく、コンピュータに文書の内容が理解できるようになります。これにより、検索したい情報のキーワードを指定することで、全文検索が可能になります。

ただ、キーワードによる全文検索では、目的としない文書も多くヒットしてくるため、文書に属性情報と組み合わせて利用するとよいといわれてきました。しかし、この属性設定は工数がかかるために敬遠されることが多いというのが実情です。

PDFにも3タイプある

スキャンした文書と言えば、PDF、TIFF、JPEGなどの形式を思い浮かべますが、PDFには下図のように、3タイプあることに留意しておきたいです。見かけは同じPDFですが、Office文書変換タイプでPDFを作成、入手しておくと、後続の処理が楽になります。

(1) スキャンデータタイプ(テキストデータ含まず)

スキャナーで、PDFを指定して読み取るとビットマップのみの形式となります。このままでは、文書が含まれていても認識できません。そのため、記載されている文書を読むためには、OCRを利用して、文字をテキスト化する必要があります。

(2) Office文書変換タイプ(テキストデータ含む)

WORD、EXCELなどをPDFに変換した場合です。表面上は、ビットマップに見えますが、WORD、EXCELに含まれていたテキスト情報やレイアウト情報も含んでいます。そのため、OCRを利用しなくても、記載されている文書を認識できます。全文検索の対象とできます。

(3) スキャンデータタイプ(テキストデータを含む)

(1)のスキャンデータに対してOCRを掛けてテキスト化し、それをPDFの中に含めることができます。全文検索の対象とできます。

図 PDFの3タイプ

OCRの主要技術

OCRは、複数の技術で構成されています。この後、AIにより特段に進化した技術について解説します。

(1) 文字を認識する技術

① 手書き文字認識技術
人が手で書いた文字を認識します。人の癖や筆記用具などの影響を受けるため、活字に比べて極めて高度な技術を必要とします。漢字の認識はさらに難易度が高まります。AIにより昔に比べて読取精度が上がっています。

② 活字認識
手書き文字に比べて文字認識は比較的容易です。そうは言っても、使用するフォントの影響を受けるので、使用フォントには注意が必要です。

③ 留意事項
手書き文字認識、活字文字認識ともに、誤読があることを前提とした運用が必要です。一般に、活字認識率は、手書き文字認識率より高くなります。もとがOffice文書であった場合は、ここはすでにテキスト化されているため処理が不要となります。

(2) レイアウト構造解析技術

文字領域、画像領域、表、罫線など解析し識別します。

(3) 文字列、文字切り出し技術

文字認識をする前に、文字列画像の切り出し、文字画像の切り出しを行います。

(4) 読取位置設定、調整技術

定型フォーマット帳票では、帳票毎に、文字列画像の切り出し位置や文字画像の切り出し方を予め設定します。帳票を読み込んだ際の位置ずれを補正する基準点なども含みます。通常、SE工数が必要であり、フォーマットの数を増やすと費用負担が大きくなります。

(5) 非定型帳票対応データ抽出技術

電子帳簿保存法でいえば、帳票種別や取引先名、取引日、取引金額などのデータ部を識別する技術です。AIにより抽出技術が進歩しています。

電子帳簿保存法 スキャナー保存、電子取引情報の電磁的保存で進化した技術

電子帳簿保存法のスキャナー保存に対応して、多様な形式のフォーマットの請求書、見積書から、取引日、取引先、取引金額を抽出することができるようになりました。これは、手書き文字認識精度の向上と非定型帳票対応データ抽出技術の進歩が寄与するところが大きいといえます。

電子帳簿保存法 電子取引情報のデータは、殆どはOffice文書の変換型であり、文字自体の認識技術は殆ど不要で、非定型帳票対応データ抽出技術の進歩により、実用的なレベルになったと考えます。

非定型帳票対応データ抽出技術

フォーマットを統一化できない帳票から電子帳簿保存法の検索項目を抽出するには、AIを使った非定型帳票対応データ抽出技術が現在のところ最適な技術と考えます。この技術は複数社から提供されておりますが、ここでは、AI inside 株式会社のDX Suite のオプション Multi Form と株式会社インフォディオ のスマートOCRについて紹介いたします。

AIというとディープラーニングを思い浮かべますが、ディープラーニングでは、多量の学習データを必要とするため、多品種少量対応の場合は不向きであり、別のAI技術を使用しています。

(1)DX Suite のオプション Multi Form

引用元)http://dx-suite.com/news/multiform

読み取りたい項目の位置をAIが自動で抽出し、読み取りを行います。従来のOCRで必要だった読み取り箇所の設定はいっさい不要で、フォーマットの違う書類をまとめて読み取ることができます。

(2)スマートOCR

引用元)https://www.smartocr.jp/technology/

フォーマットの異なる請求書 から、共通のデータ抽出テンプレートを作成し「請求日」「会社名」「請求金額」「振込口座」 等の項目を自動的にデータ抽出できます。

また、フォーマットの異なる請求書 (帳票)から、帳票内の表データ「商品名」「数量」「単価」「金額」等を自動的にデータ抽出できます。

AIOCRの他の用途への適用拡大の期待

これまで、帳票から特定情報を抽出するためには、
・情報抽出しやすいフォーマットにする
・個々のフォーマットから情報を抽出しやすいように各種の設定をする
ということが必要で、その調整に専門のSEを必要とする状況がありました。
このため、費用負担の課題があることから、その利用は、取扱量の多い特定用途に限定されていました。今、非定型帳票からのデータ抽出技術の進歩があり、これからは、電子帳簿保存法だけでなく適用用途の拡大が期待したく考えます。以下に、いくつかの期待用途例を挙げます。

(1) ファイル名自動付与、文書の属性設定

□課題
電子文書に適切な名称を付与することで、ファイル名検索の利用を含めてで、探しやすく、利用しやすくなる。また、文書に適切な属性を設定することで文書検索の確度が上がる。しかしながら、これまでは、次のような問題点があった。

・文書が大量にある場合は、適切な名称を付与する作業に手間がかかり、敬遠されてきた。
・登録者が多くいる場合、ファイル名の付与規則が徹底されない。
・個々の文書を読んで、属性設定するのが面倒である。
これらにより、電子文書は探しづらい傾向が続いており、これを解決する必要があった。

□対策方針
AIOCRの非定型帳票からのデータ抽出技術を応用し、ファイル名の付与規則にそった情報、属性設定したい項目を文書内から抽出してファイル名を付与、または属性設定する仕掛けに繋げる。

□補足
適用範囲を拡げるためには、固定的なフォーマットの利用は運用上無理がある。が、本AIOCR技術を適用すれば、文書内にファイル名や属性設定項目を比較的緩い規則性で持たせておくだけで検索が可能になる。

□適用例
会議録、出張報告書など

(2) 文書の自動識別

□課題
受領する文書の種別が多いため、ファイル名に文書種別を付与したい。技術的には、QRコードやバーコードを各文書に付与すれば簡単に実現できるが、文書種別が多い場合などではこの手法を取れない。

□対策方針
AIOCRの非定型帳票からのデータ抽出技術を応用し、各文書特定の方法を設定することで、文書種別を特定する。

□適用文書例
(国税帳簿保存法対応帳票以外) 印鑑証明書、住民票、源泉徴収書、売買契約書、重要事項説明書、登記事項証明書、公図など

まとめ

これまで、OCRを使って帳票や文書から必要な情報を抽出したり文書種別を判別したりする場合、多くのケースで専門SEによる調整費用を必要としていました。これに対し、電子帳簿保存法へ対応するにあたり、AI等の技術を用いることで専門SEの費用を抑制し、種類の帳票の識別、取引年月日、取引先、取引金額を抽出することができるようになりました。

この技術を利用することで、従来は対象となる量がそこまで多くないことからOCRを入れてもコスト的に見合わなかった分野(多品種少量用途)でも、今後はAIOCR技術を適用することで導入コスト、運用コストが下がることが期待できます。是非、検討してみてはどうでしょうか。

特に、取り扱う文書を紙から「Office文書を変換したPDF」に切り替えていくことで、高度な文字認識技術が必要なくなり、運用コストの低減が期待できるようになるのでお勧めです。

関連記事