🔍📄 DeepSeek-OCR:視覚トークンで長文処理を変革

:light_bulb: 導入

大規模言語モデル(LLM)が数万語の論文や電子書籍を扱う際、シーケンス長の上限超過や処理速度の低下が課題となる。これは、計算量がテキスト長の2乗に比例する根本的な技術的制約によるものだ。DeepSeek社が最近公開したDeepSeek-OCRは、この問題に新たなアプローチを提案する。テキストを画像に変換し、視覚トークンを介して効率的に圧縮する手法を採用し、OCR(光学文字認識)を基盤に視覚言語モデルとして機能する。

このモデルは、単なるOCRツールではなく、視覚モダリティを活用したテキスト圧縮のプロトタイプだ。視覚トークンがテキストトークンを大幅に削減可能かを検証し、圧縮後の解読精度やLLMへの実用的貢献を問う。DeepSeek-OCRは、高解像度画像を扱いつつトークン数を最小限に抑える視覚エンコーダDeepEncoderと、混合専門家(MoE)ベースのデコーダを組み合わせる。実験では、10倍圧縮で97%の精度を維持し、従来のOCRモデルを上回る性能を示した。このアプローチは、LLMの長文処理を根本的に変える可能性を秘め、視覚とテキストの統合による効率化を象徴する。以下では、その仕組みと意義を詳しく探る。

:bar_chart: 長文処理の課題と視覚圧縮のアイデア

大規模言語モデルが長文を扱う際のボトルネックは、計算量の爆発的増加にある。テキスト長が倍増すれば、計算量は4倍に跳ね上がるため、ハードウェア資源の負担が深刻だ。DeepSeekチームは、この問題をパラメータ増加やコンテキスト窓拡大ではなく、視覚モダリティの活用で解決する道を探った。テキストを画像化し、視覚トークンとして圧縮する手法は、情報量を維持しつつ入力トークンを削減する革新的な手段だ。

例えば、1000漢字を含む文書画像は、純テキストでは数千トークンを要するが、視覚トークンでは数百に抑えられる。OCRは視覚からテキストへの橋渡し役として理想的で、少数の視覚トークンから大量のテキストを解読するプロセスを学習させる。これにより、DeepSeek-OCRは3つの核心的疑問に答える:視覚トークンの圧縮限界、解読精度、そしてLLMへの実用的支援。視覚圧縮は、従来のテキストベース処理の限界を超越し、新たな効率化の地平を開く。

:hammer_and_wrench: 既存視覚エンコーダの限界とDeepEncoderの設計

現在の視覚モデルでは、高解像度入力、低メモリ消費、少トークン出力のバランスが取れていない。双塔アーキテクチャ(例:Vary)はメモリを制御できるが、展開の複雑さと訓練効率の低さが欠点だ。タイルベース(例:InternVL2.0)は高解像度対応だが、トークン数が急増し圧縮に不向き。自適応解像度(例:Qwen2-VL)は柔軟だが、メモリ爆発と速度低下を招く。

これらの問題を解決するため、DeepSeekチームはDeepEncoderを新規設計した。総パラメータ3.8億のこのエンコーダは、窓注意ベースの視覚知覚モジュール(SAM-base、8000万パラメータ)、16倍畳み込み圧縮器、全局注意ベースの視覚知識モジュール(CLIP-large、3億パラメータ)の3部構成だ。SAM-baseは高解像度画像を窓単位で処理しメモリを抑え、畳み込み圧縮器はトークンを4096から256に削減。CLIP-largeは全局情報を捕捉し、全体として高解像度・低活性化・少トークンの要件を満たす。この構造は、視覚モデルのエンコーダ設計に新たな指針を提供する。

:magnifying_glass_tilted_left: DeepEncoderの解像度モードと柔軟性

DeepEncoderの強みは、多様な解像度対応にある。文書画像のサイズ差を考慮し、ネイティブモードとダイナミックモードを備える。ネイティブモードは4種:Tiny(512×512、64トークン、短文向け)、Small(640×640、100トークン、単ページ向け)、Base(1024×1024、256トークン、複雑レイアウト向け)、Large(1280×1280、400トークン、高詳細向け)。低解像度ではリサイズ、高解像度ではパディングを適用し、有効トークンを最適化。

ダイナミックモードは超高解像度用で、Gundamモードは画像を640×640タイルに分割し全局ビュー(1024×1024)を加える(例:n=4で656トークン)。Gundam-masterモードはより高解像度の変種で、追加訓練で得られる。これらのモードは、トークン数を制御しつつ詳細を保持し、実世界の多様な文書に対応する柔軟性を示す。

エンコーダタイプ 主な構造 特徴 弱点
双塔式 (Vary) 並行エンコーダ メモリ制御可能、高解像度対応 展開複雑、訓練効率低
タイルベース (InternVL2.0) 画像分割 極高解像度処理 トークン数急増、圧縮不向き
自適応解像度 (Qwen2-VL) パッチベース 柔軟な解像度 メモリ爆発、速度低下
DeepEncoder 窓注意+畳み込み+全局注意 高解像度・低メモリ・少トークン 新規設計のため、既存モデルとの互換性考慮必要

この表は、DeepEncoderが既存アーキテクチャの弱点を克服した点を明確に示す。視覚圧縮の基盤として、DeepEncoderは効率と実用性のバランスを達成している。

:gear: デコーダーとデータエンジン

視覚トークンをテキストに解読するデコーダとして、DeepSeek-OCRは活性パラメータ5.7億のDeepSeek3B-MoE-A570Mを採用。MoEアーキテクチャは、64のルーティング専門家と2の共有専門家からなり、推理時8専門家のみ活性化。これにより、3B級の表現力を持ちつつ500M級の速度を実現し、OCRの展開に適する。

訓練データは4種:OCR1.0(文書・自然シーン、数十億サンプル、多言語対応)、OCR2.0(図表・化学式・幾何解析)、汎用視覚データ(画像記述・検出、20%)、純テキストデータ(言語生成維持、10%)。これらを7:2:1で混合し、OCR精度と汎用性を確保。データ構築は、PDF抽出やモデルベース注釈を組み合わせ、効率と精度を両立した。

:chart_increasing: 訓練プロセスと実験評価

訓練は2段階:DeepEncoderの独立訓練(OCRデータ+汎用画像、2エポック)と全体訓練(160 A100 GPU、流水線並行)。全体訓練では、DeepEncoderの一部を凍結しMoEを最適化、毎日700-900億トークンを処理。

Foxベンチマークでは、10倍圧縮で97%精度(Smallモード、100トークン時)。20倍圧縮でも60%と実用的。OmniDocBenchでは、GOT-OCR2.0やMinerU2.0を上回る編集距離を示し、少トークンで優位。定性評価では、図表のHTML変換、化学式のSMILES出力、多言語対応、汎用視覚理解(物体定位・記述)を証明。これらは、DeepSeek-OCRが圧縮と精度を両立した点を裏付ける。

:globe_with_meridians: 応用可能性と将来の方向性

DeepSeek-OCRの視覚圧縮は、LLMの長文処理を変革する。人間の記憶忘却を模倣し、近接情報を高解像度、遠隔を低解像度で扱うことでトークン消費を削減。超長コンテキストでは、文書をセグメント画像化し圧縮存储・按需解読を実現。将来、LLMに視覚圧縮を統合すれば、テキスト-画像-視覚トークンの閉環訓練が可能だ。

課題として、高圧縮時の精度低下、複雑レイアウトの保持、リアルタイム処理の最適化がある。これらを解決すれば、視覚モダリティはLLMの標準ツールとなるだろう。

:end_arrow: 結論

DeepSeek-OCRは、視覚トークンによるテキスト圧縮の有効性を証明し、10倍圧縮で高精度を維持する革新的モデルだ。DeepEncoderの設計は視覚エンコーダの新基準を設け、OCR性能で競合を凌駕する。このアプローチは、LLMの効率化に寄与し、業界の長文処理パラダイムをシフトさせる可能性が高い。視覚とテキストの融合は、AIの未来を広げ、持続可能な計算リソース活用を促すだろう。こうした進展は、技術の多角的探求の重要性を思い起こさせる。