生成AIを用いた手書き文字のOCR
- 業種
- 金融・保険
- 業務
- IT・情報システム
- 課題
-
- 生成AI
- OCR
- 保険の引受査定に使用する手書き文字を含んだ書類は画像データとしてのみ保存されており、詳細内容がデータ化されていない書類の内容を他のデータと結合して高度な分析に活用したいが困難だった
アナリティクス・AIソリューション
生成AIによる手書き文字のOCRとテーブルデータ化
• 生成AI(GPT-4o)による手書き文字のOCRによって出力され
たテキストデータを元にテーブルデータを作成
• 生成AIが誤認識した箇所に対して、ロジックベースの名寄せ補
正を実施することで正解文字への補完を実施
• 元画像との正確さを表す指標として文字誤り率(CER)を使用
※実際の書類は個人情報により使用不可のため、内容のみ参考にして分析者が
手書きしてテストデータを作成した
• 生成AI(GPT-4o)による手書き文字のOCRによって出力され
たテキストデータを元にテーブルデータを作成
• 生成AIが誤認識した箇所に対して、ロジックベースの名寄せ補
正を実施することで正解文字への補完を実施
• 元画像との正確さを表す指標として文字誤り率(CER)を使用
※実際の書類は個人情報により使用不可のため、内容のみ参考にして分析者が
手書きしてテストデータを作成した

効果
- 平均文字誤り率が3%以下 (100文字中2,3文字程度の誤り)であり実用に向けて期待が持てる性能だった
- 今後、顧客環境内でのOCRにより実際の書類での性能評価を検討中である