
Vision-Language-Actionモデルで、ロボットが
「見て・理解して・動く」世界を実現します。
Architecture
視覚・言語・行動の3つのモダリティを統合し、エンドツーエンドでロボット制御を実現するアーキテクチャです。
大規模事前学習済みビジョンモデルにより、多様な環境・物体を高精度に認識。
LLMベースの言語理解で、複雑な指示の解釈やタスク分解を実現。
視覚・言語特徴を統合し、ロボットの連続的な動作軌跡を生成するポリシーネットワーク。
視覚入力と言語指示を統合し、ロボットの行動を生成。フィードバックループで精度を向上させます。
Milestones
エンボディドAI専門の研究開発チームを立ち上げ、VLAモデルの基礎研究を開始。
物理シミュレータ上でのロボット学習環境を構築し、大規模な行動データ収集パイプラインを整備。
視覚・言語入力から基本的なロボット操作を生成するプロトタイプモデルを開発。
シミュレーションで学習したポリシーを実機ロボットアームに転移し、ピック&プレースタスクで検証。
製造・物流分野のパートナー企業と連携し、実際の現場環境でのPoC(概念実証)を実施中。
NVIDIA Technology
NVIDIAの最先端プラットフォームを活用し、物理AIの研究開発を加速しています。
Simulation
物理シミュレーション環境でロボット操作の学習データを大量生成。実機実験の前に安全かつ低コストでポリシー検証を行います。
World Model
物理AIのための世界基盤モデル。環境の理解・予測により、VLAモデルの行動計画精度を向上させます。
Demos & Use Cases
VLAモデルを活用した具体的なデモンストレーションと応用事例をご紹介します。
「赤い箱を右の棚に置いて」といった自然言語指示に基づき、ロボットアームが視覚情報を元に対象物を認識・把持・配置します。
一つのVLAモデルで複数の操作タスク(把持、押す、回す等)を実行可能。未知の物体や配置に対しても柔軟に対応します。
シミュレーション環境で大量に学習したポリシーを、ドメインランダマイゼーション技術により実機へスムーズに転移。
タスク実行中の視覚情報をリアルタイムに言語モデルへフィードバックし、失敗検知や計画修正を自律的に行います。
Data Collection
OpenArm / Unitree G1 を用いた高品質なロボット操作データの収集と提供。VLAモデルのファインチューニングに最適なフォーマットでデータをお届けします。
単腕から全身操作まで、タスクに最適なハードウェアでデータを収集。ピック&プレース、組立、検査など多様なシナリオに対応。
VLAモデルのファインチューニングに直接利用できる形式で提供。画像・関節角・アクションのペアを標準化済み。
お客様の現場環境に合わせたデータ収集が可能。製造・物流・小売りなど、用途に応じたシナリオを設計・実施します。