🚀🇨🇳 わずか6Bで画像編集オープン最強に!美団「LongCat-Image」徹底解説

:light_bulb: 概要

2025年12月、美団(Meituan)が画像生成AI「LongCat-Image」を完全オープンソース化。わずか60億パラメータという軽量モデルでありながら、画像編集能力で現在のオープンソース最高記録(SOTA)を大幅更新し、特に漢字レンダリング精度で他を圧倒する結果を出したことが最大の衝動点です。

これまでのオープンソース画像生成モデルは「軽いか強いか」の二択を迫られ、特に編集時の精密な指示追従や漢字表示に深刻な弱点がありました。LongCat-Imageはその壁を、同時に文生図と編集を育てる独自アーキテクチャ+段階的な学習戦略+徹底的なデータ設計で一気に突破。
開発者にとって「高性能・低消費・完全オープン」という理想の三拍子が揃った、まさに待望のモデルが誕生しました。

:building_construction: モデル設計の最大の特徴

LongCat-Imageの核となるのは、**文から画像を生成する能力(文生図)と画像編集能力を完全に同じ土台で育てる「同源アーキテクチャ」**です。

通常、画像編集モデルは文生図モデルを後から微調整すると、編集指示の自由度が落ちやすい欠点があります。LongCat-Imageは文生図の途中の学習段階(中間チェックポイント)を起点に、文生図タスクと編集タスクを同時に並行学習させることで、両方の能力を同時に極限まで高めることに成功しました。

さらに、以下の3段階のデータ戦略が編集精度を支えています:

  • 事前学習:多様な実写データ+指示言い換えで汎化力強化
  • 教師あり微調整(SFT):人間が厳選した高品質編集データで精度を極める
  • 強化学習(RL):OCR精度+美しさ評価+「AIっぽさ検出器」を逆手に取った報酬で自然な質感へ誘導

:writing_hand: 漢字表示が圧倒的に美しい

特に強烈なのが、中国語の文字レンダリング性能です。

段階的なカリキュラム学習により、常用漢字・難読漢字まですべて正確かつ自然に描画可能に:

  • 事前学習:数千万枚の合成文字画像で字形を徹底習得
  • SFT:実世界の看板・ポスター画像でフォントやレイアウトの多様性を学習
  • RL:OCR精度と美しさの両方を報酬に、自然な背景との融合を実現

プロンプトで指定した文字を「一文字ずつトークン化」する工夫により、モデルが個々の漢字を丸暗記する負担を劇的に軽減。
和風ポスター、店舗看板、春聯、古詩詞の挿絵、ロゴデザインなど、従来のモデルが壊滅的に苦手だったシーンで驚異的な実用性を発揮します。

:bar_chart: 公式検証済みベンチマーク比較

項目 LongCat-Image (6B) SD3-Medium (8B) Flux.1-dev (12B) 閉源トップクラス
画像編集 ImgEdit-Bench 4.50(オープン1位) 4.12 4.38 ≈4.6~4.8
画像編集 GEdit-Bench 7.60(オープン1位) - 7.41 約7.8
日本語・中国語文字評価 90.7(圧倒的1位) 約72 約81 約85
文生図 GenEval 0.87 0.79 0.91 約0.93

:+1: 良い点

  • 6Bの軽さで画像編集オープン最強を達成 → 16GB前後のGPUで高解像度編集が可能
  • 日本語・中国語の文字が実用レベルで完璧に描ける
  • 中間学習モデルまで完全公開(コミュニティ発展に最適)
  • 商用利用可(Apache 2.0)

:-1: 現時点の弱点

  • 純粋な文生図の画力はFlux.1-devにわずかに劣る
  • 英語の長編プロンプトへの対応力はまだ発展途上

:vs_button: 主なオープンソースモデル比較表

モデル名 パラメータ 画像編集性能(オープン内) 日本語・中国語文字 必要VRAM(1024px) ライセンス
LongCat-Image 6B 1位(SOTA) 圧倒的1位 12~16GB Apache 2.0
Flux.1-dev 12B 2位 3位 24GB以上 Apache 2.0
SD3-Medium 8B 5位以下 非常に弱い 16~20GB 非商用

:rocket: 結論

「軽量なのに画像編集が異常に強い」+「中国語の文字が完璧」という、これまで存在しなかったポジションを確立したLongCat-Image。
特に中国語圏のクリエイターや、ローカル環境で商用レベルの画像編集をしたい企業にとって、2025年現在最強のオープンソース選択肢であることは間違いありません。

今後コミュニティによるLoRAやControlNetの追加でさらに進化する可能性も確実。
美団がここまでオープンに公開した意義は非常に大きく、中国発の技術が再び世界の画像生成シーンを塗り替えた歴史的な一歩と言えるでしょう。

【公式リンク】
・Hugging Face:meituan-longcat/LongCat-Image · Hugging Face
・GitHub:GitHub - meituan-longcat/LongCat-Image