ミスと手間が激減!ペーパーレス化をあと押しする「AI-OCR」に最適な帳票とは?テクニカルレポート

公開日:2025年4月30日
はじめまして、R&D本部 先進技術開発部の八尾です。
近年、AIの進化が加速度的に進み、私たちの生活や仕事のあり方を大きく変えています。そのなかでも、PDFなどの文書から文字情報を読み取り、自動でテキストデータに変換する「OCR(光学文字認識)」技術にAIの最新技術を組み合わせた「AI-OCR」が注目されています。「AI-OCR」は、従来の「OCR」よりも高精度で文字を認識できるため、業務の効率化に大きく貢献しています。
今回は、そんな「AI-OCR」を使用した帳票の作成方法や読み取りのポイントについて、実際に研究・開発に携わる技術者の視点から解説します。具体例として請求書を取り上げますが、ほかの帳票にも応用可能ですので、ぜひ参考にしてください。
「AI-OCR」で読み取れない請求書は、取引先にとっては大きな負担!?
電子帳簿保存法(電帳法)の改正により、2024年から請求書や領収書、納品書などの帳票は、電子データで取引・保存・管理することが義務化されました。しかし、現場では「業務負荷が増えるのでは?」と懸念する声も多く、依然として紙の帳票が使われ続けています。
とはいえ改正後の電帳法では、紙の帳票もスキャンして電子化し、保存(スキャナー保存)することが求められており、さらに、「取引日付」「取引金額」「取引先名称」などの項目で検索できるよう適切な方法で管理する必要があります。
こうした要件を満たすため、近年の帳票管理システムでは「AI-OCR」が広く活用されています。「AI-OCR」は、「OCR」の読み取り機能とAIの学習機能を融合させた新しい技術。AI技術を活用することで読み取り精度が高まり、従来の「OCR」では難しかったクセのある手書き文字などにも活用できるようになりました。しかし帳票を作成する際に「『AI-OCR』で読み取りやすいかどうか」を意識している人は少ないのではないでしょうか。
とくに請求書のような「非定型帳票」は、発行元ごとにレイアウトが異なるため、「AI-OCR」でも精度が低下しやすい傾向があります。その結果、取引先が各項目を手入力する必要が生じ、かえって負担を増やしてしまうことも……。
では、「AI-OCR」で正しく読み取れる請求書を作成するためには、どのような点に注意すればよいのでしょうか。ここでは、押さえておきたいポイントをご紹介します!
「AI-OCR」で正しく読み取れる請求書のつくり方
ポイント1 書体は明朝体よりもゴシック体がオススメ!
帳票で使用される書体は、明朝体やゴシック体が一般的です。しかし、明朝体は横線が細いため、スキャンするときに文字の一部が消えてしまい、「AI-OCR」でも誤認識が発生しやすいという課題があります。そのため、「AI-OCR」の精度を向上させるには、ゴシック体の使用をオススメします。また、ポップ体や毛筆体、デザイン書体は文字の形状が不規則なため、スキャンの精度が低下しやすく、「AI-OCR」でも認識が難しくなります。これらの書体は避けるのが望ましいでしょう。
ポイント2 社印は会社名が読める位置に!
帳票から読み取る項目のひとつに「取引先名称」があります。しかし、その読み取りを妨げる最大の障害が「社印」です。現在、請求書に社印の押印は必須ではありませんが、商慣習として求められるケースも依然として多くあります。「AI-OCR」の精度を保ちながら配置するにはどうすればよいか、オススメの方法をご紹介します。

会社名を確実に読み取れるようにするには、社印を会社名に重ねずに押印することです。改ざん防止という観点では、従来の押印方法からは逸脱しますが、電帳法ではデジタル的手段で改ざんを防いでいるので支障ありません。
お勧め度:◎

社印が重なっていても、その下の文字の線が透けて見えていれば、現在の「AI-OCR」なら読み取れる可能性はあります。ただし相手方の環境次第なので注意が必要です。
お勧め度:◯

上記の例とは異なり、印鑑の下の文字が透けて見えるかどうか。陰影がまったく透けていない場合は、文字の読み取りは難しくなります。
お勧め度:△

デジタル印鑑をつくる際にやってしまいがちなのが、印影枠の内部を透過させずにつくってしまうこと。こうなってしまうと会社名を正しく読み取ることはもはや不可能となります。
お勧め度:×

エコを意識したのか、請求書の元本がグレースケールで出力されており、社印もグレーになってしまっているものをときどき見かけます。朱以外の印鑑と重なった文字を読むのは「AI-OCR」でも難しいでしょう。
お勧め度:×
表1 社印の配置パターン
最新の「AI-OCR」は、膨大な文字画像のパターンを学習しており、印鑑が重なった文字の読み取りにも対応できるよう訓練されています。また前後の文脈を解析し、読めない部分を補完する機能も搭載されています。たとえば「株式会■」のように一部が欠けていても、「株式会社」と正しく認識・訂正するなど、多少の重なりであれば正しく読み取ることが可能です。とはいえ、会社名は請求書などの帳票において最も重要な項目のひとつ。押印の位置によって読み取りが失敗するリスクをあらかじめ考慮し、できるだけ文字と印鑑が重ならないよう押印するのがベストでしょう。
ポイント3 項目名と数字を一緒に記載しよう!
請求書を電子化する際、いつでも検索できるように「取引日付」「取引金額」「取引先名称」を読み取ります。しかし、請求書には多くの数字が記載されているため、どの数字が「取引日付」で、どの数字が「取引金額」なのかを正確に特定する必要があります。
最新の「AI-OCR」は、AIが学習した業務知識を活用し、請求書内の数字のなかから必要な項目を自動で判別する機能を搭載しています。しかし、より確実に「AI-OCR」の精度を向上させるには、請求書内に「発行日:令和6年6月13日」のように項目名と数値を明確に記載することが重要です。こうすることで、「AI-OCR」が項目を特定しやすくなり、正確なデータ化につながります。

現実にこのようなパターンは多く、このとき業務担当者は、一般的に右上の日付が取引日付だという暗黙のお約束の知識を使って値の意味を読み取っています。
AI-OCRもそういった知識を学習しており、この日付が取引日付だと推定しますが、時々推定を誤って「支払期限」などと誤判定することがあります。

見出しがあるとこの日付は「発行日」であることがはっきりします。
この例では「取引日付」の例として「発行日」という見出しを使っていますが、AI-OCRは「発行日」が「取引日付」の別名として使われるという知識を学習しており、問題なく読み取ることができます。
表2 請求書のパターン
ポイント4 表のレイアウトはシンプルに!
電帳法では、明細表の同封は必須とされていませんが、作成する際にはいくつかのポイントを押さえておくとよいでしょう。まず、「ひとつのセルに複数の情報を詰め込まない」ことが重要です。たとえば「数量」欄に「1セット」と記載するケースをよく見かけますが、これは「数量」と「単位」の欄をわけ、「1」と「セット」のようにそれぞれ別の列に記載するのが理想的です。またセルの境界には、明確な罫線を引くこともオススメします。さらに、ヘッダー部分の背景色を変更して白抜き文字を使う際には、配色を濃くし、コントラストをはっきりさせることが大切です。「AI-OCR」でも、ヘッダーの文字が読み取れないと、明細書の中身の正確な認識にも影響を与えてしまうため、視認性を考慮したデザインにすることがポイントです。

各セルをはっきりした罫線で区切っています。見た目が美しいとは言えませんが、AI-OCRにとっては読み取りやすい帳票です。
お勧め度:◎

デザインをすっきりさせるために縦や横の区切りの罫線を無くしている帳票が現実にも多く見られます。
このようなデザインの場合、「No.」と「品名」、「数量」と「単位」の区切りがあいまいになり、AI-OCRでも読み取りが難しくなります。
お勧め度:△

1つのセルに複数の情報(ここでは品名、数量、単位)を詰め込むというのは帳票を作成する上では可能な限り避けなければなりません。このような帳票を非定型解析で読み取るのは現在のAI-OCRでも相当困難です。
お勧め度:×
表3 明細書のパターン
OCR処理の精度を上げるスキャン方法は?
ここまでは、「AI-OCR」で正しく読み取れる請求書のつくり方について解説してきました。次からは、その帳票をスキャナーで電子化する際に、手入力での修正作業を減らすためのコツをご紹介します。スキャンの方法によっては「AI-OCR」にも大きな差が生じます。この機会に、スキャナーの設定やスキャン時のポイントを見直し、より精度の高い電子化を実現しましょう!
ポイント1 解像度の設定を見直す!
国税庁では、電子データ保存の要件として「200dpi以上」でのスキャンを推奨しています。dpi(dots per inch)とは画像の解像度を表す単位で、1インチの範囲にどれだけのドットが使われているかを示しており、この数値が高いほど画像が鮮明になり、ファイルサイズも大きくなります。200dpi未満では、細かい文字がつぶれて「AI-OCR」でも正しく読み取れないことがあり、 逆に、300dpiを超える高解像度でスキャンしても、ファイルサイズが大きくなるだけで読み取りの精度向上にはほとんど影響しません。そのため、200~300dpiの範囲でスキャンするのが最適です。
また、カラーとグレースケールのどちらでスキャンすべきかについて、国税庁では基本的にカラーを推奨しています。一部例外としてグレースケールでのスキャンも認めていますが、特別な事情がない限り、カラーでスキャンするのがベストです。ひと昔前の「OCR」 は、白黒画像に変換して文字を読み取る方式でしたが、最新の「AI-OCR」は、印鑑やマーカーなどの色の情報を活用してより正確にデータを認識できるよう進化しています。そのため、カラーのままスキャンすることで、読み取りの精度も向上し、より正確なデータ化が可能になります。

ポイント2 高圧縮PDFを使っていないか確認!
スキャナー保存時、多くのケースでPDF形式が使用されます。このとき、スキャナーの設定で「高圧縮PDF」が有効になっていないかを必ず確認してください。もし有効になっている場合は、無効にすることを推奨します。電帳法では、高圧縮PDFは非推奨とされています。その理由は、高圧縮PDFがスキャンデータのファイルサイズを削減する際に、以下のような処理を行うためです。
- 帳票内の要素を「文字」と「文字以外(図表・写真など)」に分類する
- 図表や写真などの非文字データは、画質を大幅に落として圧縮する
- 文字と判断された部分は白黒に変換し、データ量を削減する
この処理が正しく行われないと、文字が極端に劣化したPDFが出力されてしまい、「AI-OCR」でも文字を読み込むことが困難になります。そのため、高圧縮PDFは「AI-OCR」にとって大きな障害となるのです。
下の図では、「消費税」の部分にノイズがかかり、モザイク状になって読みづらくなっていることが確認できます。このような状態を避けるためにも、スキャナーの設定を適切に調整し、「AI-OCR」で正しく読み取れるPDFを作成することが重要です。


表5 通常のPDFと高圧縮PDFの比較
高圧縮PDFの技術が開発された2000年代当時は、データ保存のためのディスク容量が限られており、ネットワーク速度も十分ではありませんでした。そのため、PDFのファイルサイズをできるだけ小さくすることが重要視されていました。また、当時は性能が限られたフィーチャーフォンでPDFを表示したいというニーズもあり、積極的にファイルサイズの圧縮が行われていました。
しかし、現在はデジタル化やペーパーレス化が進み、ストレージや通信環境も大幅に向上したことで、高圧縮PDFの必要性は低下しています。むしろ、読み取りの精度を下げてしまう可能性もあるため、適切なスキャン設定を選択することが重要です。
「AI-OCR」を上手く活用して、業務効率化を目指そう!
今回は「AI-OCR」を活用した帳票の作成方法や読み取りのポイントをご紹介しました。紙の帳票は、デジタル化の流れとともに徐々に減少していますが、現時点では依然として多くの業務で使用されており、その効率化が求められています。こうした課題に対応するため、「AI-OCR」は進化を続け、より精度の高い帳票の電子化を実現しつつあります。
重要なのは、紙の帳票を発行する側も、受け取る側も、お互いに「AI-OCR」を意識したフォーマットやスキャン方法を取り入れることです。「AI-OCR」を上手に活用しながら紙の帳票を扱う業務の負担を減らし、双方の作業効率が向上することを願っています。
筆者紹介

八尾 唯仁
R&D本部 先進技術開発部所属。入社以来、キヤノン製品のソフトウェア開発を中心に従事の後、先進技術開発部にて文字認識、帳票解析の研究開発、製品適用に従事。