【LingBot-VLA】2万時間の実世界データで訓練:中国発ロボットAI基盤モデルがオープンソース公開

ロボットAIの世界に、新たな基盤モデルが登場した。

中国のRobbyant社が発表した「LingBot-VLA」は、約2万時間の実世界ロボット操作データで訓練されたVision-Language-Action(VLA)基盤モデルだ。9種類の主流デュアルアームロボット構成に対応し、既存のVLAモデルを大幅に上回る性能を実現している。

注目すべきは、コード、基本モデル、ベンチマークデータがすべてオープンソースで公開されている点だ。

LingBot-VLA概要
目次

LingBot-VLAとは:実世界スケーリング則の実証

Vision-Language-Action(VLA)モデルとは、視覚情報と言語指示を理解し、ロボットの動作(アクション)を生成する統合AIモデルだ。LingBot-VLAは、この分野で初めて「実世界スケーリング則」を体系的に実証した。

VLAモデルとは
項目 数値
訓練データ量 約20,000時間
対応ロボット構成 9種類(デュアルアーム)
評価タスク数 100タスク × 3プラットフォーム
タスクあたりのエピソード数 130エピソード
訓練スループット 261サンプル/秒(8GPU)

実世界スケーリング則:データ量と性能の関係

LingBot-VLAの最も重要な発見は、VLAモデルにおける実世界スケーリング則の実証だ。

実世界スケーリング則

訓練データを3,000時間から段階的に増加させた実験結果:

訓練データ量 性能向上
3,000時間 ベースライン
6,000時間 ↑ 継続的向上
13,000時間 ↑ 継続的向上
18,000時間 ↑ 継続的向上
20,000時間 ↑ まだ飽和の兆候なし

重要な発見:

2万時間の段階でも性能向上に飽和の兆候が見られない。VLAモデルはさらなるデータ増加から恩恵を受け続ける可能性が高い。

3つのロボットプラットフォームでの実機評価

LingBot-VLAは、3種類の異なるロボットプラットフォームで大規模な実機評価を実施した:

評価プラットフォーム
  • Agibot G1
  • AgileX
  • Galaxea R1Pro

実機評価結果(深度情報あり/なし比較)

プラットフォーム π0.5 (SR) Ours w/o depth Ours w/ depth
Agibot G1 7.77% 12.82% 11.98%
AgileX 17.20% 15.50% 18.93%
Galaxea R1Pro 14.10% 18.89% 20.98%
平均 13.02% 15.74% 17.30%

深度情報を統合したバージョンでは、平均成功率がπ0.5の13.02%から17.30%へと約33%向上している。

高効率な訓練コードベース

LingBot-VLAのもう一つの大きな貢献は、高効率な訓練インフラだ。

訓練効率
指標 LingBot-VLA 既存VLAコードベース
スループット(8GPU) 261サンプル/秒 93-174サンプル/秒
高速化倍率 1.5〜2.8倍 ベースライン

この高効率化は以下の技術によって実現されている:

  • FSDP(Fully Sharded Data Parallel)
  • 混合精度訓練
  • オペレータ融合

深度認識によるロボット操作の強化

LingBot-VLAは、LingBot-Depthとの統合により、深度情報を活用した操作が可能だ。

深度認識機能

シミュレーション評価結果

シーン π0.5 Ours w/o depth Ours w/ depth
クリーンシーン 82.74% 86.50% 88.56%
ランダム化シーン 76.76% 85.34% 86.68%

特に注目すべきは、深度情報により透明な物体(ガラス花瓶など)の認識・操作が可能になった点だ。

効率的な下流タスクへの適応

大規模な事前訓練により、LingBot-VLAは少ないデータで新しいタスクに適応できる。

下流タスク適応

実験結果:

LingBot-VLAはπ0.5と比較して、より少ないデータで高い性能を達成。データ量が増えるほど、この性能差はさらに拡大する。

オープンソース公開:コード・モデル・データセット

LingBot-VLAは、ロボット学習分野の発展のため、すべてをオープンソースで公開している:

オープンソース公開
リソース 内容 リンク
コード 訓練・推論コードベース GitHub
モデル(4B) lingbot-vla-4b Hugging Face
モデル(4B + depth) lingbot-vla-4b-depth Hugging Face
データセット lingbot-GM-100 Hugging Face

Robbyantのエコシステム

LingBot-VLAは、Robbyantが展開するロボットAIエコシステムの一部だ:

Robbyantエコシステム
  • LingBot-Depth:深度推定モデル
  • LingBot-VLA:Vision-Language-Actionモデル(今回発表)
  • LingBot-World:ワールドモデル
  • LingBot-VA:Vision-Actionモデル

まとめ:ロボットAI基盤モデルの新時代

LingBot-VLAは、以下の点でロボットAI分野における重要なマイルストーンとなる:

LingBot-VLAまとめ
  1. 実世界スケーリング則の実証:2万時間でも飽和せず、さらなるデータ増加の価値を示唆
  2. 高効率な訓練基盤:既存の1.5〜2.8倍の訓練効率
  3. マルチプラットフォーム対応:9種類のデュアルアーム構成に対応
  4. 完全オープンソース:コード、モデル、データセットを公開

中国発のロボットAI基盤モデルが、オープンソースで世界に公開されたことは、ロボット学習研究のグローバルな加速を予感させる。

関連リンク

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメントする

目次