◀ AIニュースまとめ(2026.06.20–06.24)に戻る
フランスの Mistral が、文書解析OCR(画像から文字を読み取る技術)の新版である OCR 4 を2026年6月23日に公開しました。日本語を含む170言語に対応していて、文字の位置や読み取りの自信度まで出力できます。
何ができるのか
OCR 4 は、PDF や Word、PowerPoint、OpenDocument などの文書から、文字とレイアウト構造をまとめて抜き出してくれます。前の版の OCR 1(2025年3月)からの目玉が、(1) 文字の位置を示す バウンディングボックス(囲み枠)、(2) 見出しや表、数式、署名といった 要素の種類分け、(3) ページや単語ごとの 信頼度スコア(読み取りの自信度) の追加です。これによって、ただ文字を起こすだけでなく、どこに・何の要素として・どれくらい確かに読めたかが分かるようになりました。
性能と料金
人間による比較評価では、競合に対して 平均72%の勝率 を記録しました。文書OCRのベンチマークでも、OlmOCRBench で 85.20、OmniDocBench で 93.07 のスコアを出しています。料金は 1000ページあたり4ドルで、まとめて処理するバッチ版なら半額の 2ドル です(前の版の OCR 1 は1ドルでした)。提供方法は API のほか、Mistral Studio や Amazon SageMaker、Microsoft Foundry 経由でも使えて、Snowflake への対応も予定されています。なお、医療の診断や法的な判断、重要な金融の判断のような用途には向かないという注意書きもあります。
背景
OCR は、請求書や契約書、申請書類など、紙やPDFの山をデータに変える、地味ですが需要の大きい技術です。文字を起こすだけなら以前からありますが、表なのか署名なのか、どこに書かれていたか、どれくらい確かに読めたか まで分かると、人が後から確認したり修正したりする手間が大きく減ります。信頼度スコアが低い箇所だけ人がチェックする、といった効率的な使い方ができます。日本語を含む170言語に対応しているので、日本の事務作業の自動化にも使いやすいなと思います。
用語ミニ解説
- OCR:画像やPDFの中の文字を読み取って、テキストに変換する技術です。光学文字認識の略になります。
- バウンディングボックス:この文字はこの位置にあった、と示す囲み枠のことです。読み取った文字が元の文書のどこにあったかが分かります。
- 信頼度スコア:AIが、この読み取りはどれくらい確かかを数値で示したものです。低い箇所だけ人が確認する、といった使い分けができます。
コメント