Next Vision

エンボディドAI × VLA

Vision-Language-Actionモデルで、ロボットが
「見て・理解して・動く」世界を実現します。

Architecture

VLAアーキテクチャ

視覚・言語・行動の3つのモダリティを統合し、エンドツーエンドでロボット制御を実現するアーキテクチャです。

大規模事前学習済みビジョンモデルにより、多様な環境・物体を高精度に認識。

LLMベースの言語理解で、複雑な指示の解釈やタスク分解を実現。

視覚・言語特徴を統合し、ロボットの連続的な動作軌跡を生成するポリシーネットワーク。

視覚入力言語指示VLAモデルロボット行動

Milestones

2025 Q1

エンボディドAI専門の研究開発チームを立ち上げ、VLAモデルの基礎研究を開始。

2025 Q2

物理シミュレータ上でのロボット学習環境を構築し、大規模な行動データ収集パイプラインを整備。

2025 Q3

視覚・言語入力から基本的なロボット操作を生成するプロトタイプモデルを開発。

2026 Q1

シミュレーションで学習したポリシーを実機ロボットアームに転移し、ピック＆プレースタスクで検証。

2026 Q2

製造・物流分野のパートナー企業と連携し、実際の現場環境でのPoC（概念実証）を実施中。

Demos & Use Cases

VLAモデルを活用した具体的なデモンストレーションと応用事例をご紹介します。

「赤い箱を右の棚に置いて」といった自然言語指示に基づき、ロボットアームが視覚情報を元に対象物を認識・把持・配置します。

自然言語理解物体認識ロボット制御

一つのVLAモデルで複数の操作タスク（把持、押す、回す等）を実行可能。未知の物体や配置に対しても柔軟に対応します。

汎化能力マルチタスクゼロショット

シミュレーション環境で大量に学習したポリシーを、ドメインランダマイゼーション技術により実機へスムーズに転移。

シミュレーションドメイン適応実機転移

タスク実行中の視覚情報をリアルタイムに言語モデルへフィードバックし、失敗検知や計画修正を自律的に行います。

リアルタイム推論自律修正クローズドループ

PoCのご相談から共同研究まで、お気軽にお問い合わせください。