TDSE株式会社
TDSEマガジン

GPT-4oのOCR+要約機能を検証!

AIトレンド

「GPT-4o」のOCR (光学文字認識) と要約能力について検証、解説

OpenAI社が新たに展開したGPT-4oは画像と音声理解の性能が大幅に向上したと発表されています。

では、実際にどれほどのことができるのでしょうか?

今回は、国税庁発行の『年末調整控除報告書作成用ソフトウェア操作マニュアル』 (以下年調ソフト操作マニュアル) を用いて、GPT-4oの画像処理能力を以下の3つの内容で検証してみました。 (LLMの回答は多少のランダム性があるため各検証は5回ずつ実施)

検証No. 検証内容
1 年調ソフト操作マニュアルのp. 140のエラー対応表のページを、スマートフォンを用いて撮影した画像を読み込ませ、表形式を保ったまま文章を紙面通りに読み取ることができるか
2 p. 140を読み取らせたあと、
i) エラー番号・エラーメッセージの文言を与え、対処法を紙面通りに抽出できるかどうか
ii) マニュアルに対応するエラーが存在しない場合に「見つかりませんでした」と返せるかどうか
3 年調ソフト操作マニュアルの「基本情報入力画面の入力項目」をまとめたp. 36-7を、スマートフォンを用いて撮影した2枚の画像を読み込ませ、入力項目ごとに何を・どこに注意して入力すべきかを箇条書きで要約できるかどうか

結果として、GPT-4oはある程度の精度でOCRとその結果を基にした質疑応答が可能なことを確認することができました。

検証に使用した、GPT-4oに読み込ませた画像

p.140 エラー対応表

p.36-37 基本情報入力画面の入力項目

検証における留意点

  • 今回はAzure OpenAI Service (East USリージョン) とAzure OpenAI Studio上のGPT-4o (2024-05-13バージョン) を利用しました。
     Azure OpenAI サービスの価格はこちら:Azure OpenAI Service – Pricing | Microsoft Azure
  • GPT-4oの場合はPDFファイルを直接インプットすることも可能です。今回は紙ベースでしか存在しない資料に対してどのようなパフォーマンスを発揮するのか検証することを主眼に、プリントアウトした資料をスマートフォンで撮影して実験を行いました (今回の場合、パソコン上で開いたマニュアルの画面のスクリーンショットをインプットすることでOCRの精度を90%近くまで上げることが可能でした) 。
    GPT-4oには「あなたはOCR機能付きのアシスタントですので、ユーザが提供したマニュアルの内容のみに沿って質問に回答してください。マニュアルにない事項は『見つかりませんでした。』と返答してください」という趣旨の指示を事前に英語で投入しています。
    投入したパラメータは以下の通りです:
  • 検証1:エラー対応表のOCR

    検証内容

    年調ソフト操作マニュアルのp. 140のエラー対応表のページを、スマートフォンを用いて撮影した画像を読み込ませ、表形式を保ったまま文章を紙面通りに読み取ることができるかどうか

    検証結果

    精度:エラー対応表の読み取りについては約80%程度の精度でした。E020とE021など2つのエラーに対する対処方法が記載された結合セルの読み取りはできませんでしたが、それ以外はほぼ完璧に読み取れていました。

    速度:表1ページのOCRにかかった時間は30秒程度でした。

    コスト:表1ページの読み込みとOCR内容抽出 (1回あたり) は約2.4円 (約925トークン) でした。

    検証2:読み込ませた画像を元に適切な回答ができるか

    検証内容

    p. 140を読み取らせたあと、
    i) エラー番号・エラーメッセージの文言を与え、対処法を紙面通りに抽出できるかどうか
    ii) マニュアルに対応するエラーが存在しない場合に「見つかりませんでした」と返せるかどうか

    検証結果

    精度:1の読み取りで失敗した部分のエラーに関してはうまく回答できませんでしたが、その箇所以外のエラーの質問に対しては、対応するエラーが存在しない場合も含めて適切な応答ができていました。

    速度:エラーに関する問い合わせは1回あたり10秒~15秒程度でした。

    コスト:エラーに関する問い合わせ (1回あたり) は約 0.1~0.2円 (約50から100トークン) でした。

    検証3:読み込ませた画像を元に、適切な要約ができるか

    検証内容

    年調ソフト操作マニュアルの「基本情報入力画面の入力項目」をまとめたp. 36-7を、スマートフォンを用いて撮影した2枚の画像を読み込ませ、入力項目ごとに何を・どこに注意して入力すべきかを箇条書きで要約できるかどうか

    検証結果

    精度:主観的な評価にはなりますが、要約についても80%程度の正確さで箇条書きすることができていました。表のグリッド付近のテキストを、グリッドを跨いだ別の項目の内容と誤認識することと、備考が長くなるにつれて後半の文章の要約が不正確になる面が今後の課題と言えそうです。

    例:表のグリッド付近のテキストを、グリッドを跨いだ別の項目の内容と誤認識している

    速度:表2ページの読み込みと内容要約は1分~1分半程度でした。

    コスト:表2ページの読み込みと内容要約 (1回あたり) は約 3.4円 (約1,450トークン) でした。

    Azure OpenAI StudioでOCRと質疑を行った実際の様子

    まとめと使用上の留意点

    検証1 検証2 検証3
    検証
    内容
    スマホで撮影したエラー対応表を読み込ませOCR出来るか 検証1の実行後に
    ⅰ)エラーについて質問に対して表の通りに回答出来るか
    ⅱ)表中に存在しないエラーの場合にその旨回答出来るか
    2つの表に分割記載されている入力項目をスマホ撮影した画像として読み込ませOCRさせた上で、入力項目ごとにユーザーが何をすべきか要約出来るか
    精度 ・OCR精度は80%程度
    ・結合セルの読み取りに失敗したが、他はほぼ成功した
    ・検証1で読み取りに成功した範囲ではⅰ)、ⅱ)ともに成功した ・要約の精度は80%程度
    ・表のグリッド付近のテキストを、グリッドを跨いだ別の項目の内容と誤認識する、長文ほど要約が不正確になる、などの課題がある
    速度 30秒程度 10~15秒程度 1分~1.5分程度
    コスト 約 2.4円 (約925トークン) 約 0.1~0.2円 (約50から100トークン) 約 3.4円 (約1,450トークン)

    領収書やマニュアル、顧客アンケートなどの紙ベースの資料から情報を抽出し、整理することは、DXを推進する上での大きな課題です。今回の検証を通じてGPT-4oとスマートフォンのみで、低額かつ一定の精度でOCRとその内容に対する応答や要約が可能なことが示されました。

    GPT-4oにOCRを行わせることの最も大きなメリットは、読み込ませた資料に対して低コストかつワンストップで要約や疑問点の解消を行えることにあります。しかしながら約80%という精度は読み取り内容について全幅の信頼を置くには至らない状態であることも事実であり、紙面通りの情報が必要な場合にはOCRの結果について人手での確認が必要になることには注意が必要です。

    TDSEは、これまで画像処理や自然言語処理等、多種多様なモーダルを用いたデータ活用プロジェクトをご支援してまいりました。 LLMのビジネス活用に関するプロジェクトはもちろん、AI-OCR開発によるご支援の実績もございます!

    LLMやマルチモーダルAIなどAIのビジネス活用にご興味をおもちでしたら、是非お気軽にご相談ください! TDSEの専門チームがお客様の具体的なニーズに合わせたソリューションをご提案いたします。

    DXやデータ分析に関するトレンドや活用法、
    セミナー情報などをお届けします。

    メールマガジンに無料で登録する
    ご相談・お問合せはこちら

    お問合せ

    上へ戻る