Vision-Language-Actionモデルで、ロボットが
「見て・理解して・動く」世界を実現します。
Architecture
視覚・言語・行動の3つのモダリティを統合し、エンドツーエンドでロボット制御を実現するアーキテクチャです。
大規模事前学習済みビジョンモデルにより、多様な環境・物体を高精度に認識。
LLMベースの言語理解で、複雑な指示の解釈やタスク分解を実現。
視覚・言語特徴を統合し、ロボットの連続的な動作軌跡を生成するポリシーネットワーク。
Milestones
エンボディドAI専門の研究開発チームを立ち上げ、VLAモデルの基礎研究を開始。
物理シミュレータ上でのロボット学習環境を構築し、大規模な行動データ収集パイプラインを整備。
視覚・言語入力から基本的なロボット操作を生成するプロトタイプモデルを開発。
シミュレーションで学習したポリシーを実機ロボットアームに転移し、ピック&プレースタスクで検証。
製造・物流分野のパートナー企業と連携し、実際の現場環境でのPoC(概念実証)を実施中。
Demos & Use Cases
VLAモデルを活用した具体的なデモンストレーションと応用事例をご紹介します。
「赤い箱を右の棚に置いて」といった自然言語指示に基づき、ロボットアームが視覚情報を元に対象物を認識・把持・配置します。
一つのVLAモデルで複数の操作タスク(把持、押す、回す等)を実行可能。未知の物体や配置に対しても柔軟に対応します。
シミュレーション環境で大量に学習したポリシーを、ドメインランダマイゼーション技術により実機へスムーズに転移。
タスク実行中の視覚情報をリアルタイムに言語モデルへフィードバックし、失敗検知や計画修正を自律的に行います。