Next Vision

エンボディドAI × VLA

Vision-Language-Actionモデルで、ロボットが「見て・理解して・動く」世界を実現します。

Architecture

VLAアーキテクチャ

視覚・言語・行動の3つのモダリティを統合し、エンドツーエンドでロボット制御を実現するアーキテクチャです。

Vision Encoder

大規模事前学習済みビジョンモデルにより、多様な環境・物体を高精度に認識。

Language Model

LLMベースの言語理解で、複雑な指示の解釈やタスク分解を実現。

Action Policy

視覚・言語特徴を統合し、ロボットの連続的な動作軌跡を生成するポリシーネットワーク。

視覚入力言語指示VLAモデルロボット行動

Milestones

研究開発の進捗

2025 Q1

VLA研究チーム発足

エンボディドAI専門の研究開発チームを立ち上げ、VLAモデルの基礎研究を開始。

2025 Q2

シミュレーション環境構築

物理シミュレータ上でのロボット学習環境を構築し、大規模な行動データ収集パイプラインを整備。

2025 Q3

VLAプロトタイプ v1

視覚・言語入力から基本的なロボット操作を生成するプロトタイプモデルを開発。

2026 Q1

実機検証開始

シミュレーションで学習したポリシーを実機ロボットアームに転移し、ピック&プレースタスクで検証。

2026 Q2

産業応用PoC

製造・物流分野のパートナー企業と連携し、実際の現場環境でのPoC(概念実証)を実施中。

Demos & Use Cases

デモ・事例

VLAモデルを活用した具体的なデモンストレーションと応用事例をご紹介します。

01

言語指示によるピック&プレース

「赤い箱を右の棚に置いて」といった自然言語指示に基づき、ロボットアームが視覚情報を元に対象物を認識・把持・配置します。

自然言語理解物体認識ロボット制御
02

マルチタスク学習による汎化

一つのVLAモデルで複数の操作タスク(把持、押す、回す等)を実行可能。未知の物体や配置に対しても柔軟に対応します。

汎化能力マルチタスクゼロショット
03

Sim-to-Real転移

シミュレーション環境で大量に学習したポリシーを、ドメインランダマイゼーション技術により実機へスムーズに転移。

シミュレーションドメイン適応実機転移
04

視覚言語フィードバックループ

タスク実行中の視覚情報をリアルタイムに言語モデルへフィードバックし、失敗検知や計画修正を自律的に行います。

リアルタイム推論自律修正クローズドループ

エンボディドAIの導入をご検討の方へ

PoCのご相談から共同研究まで、お気軽にお問い合わせください。

お問い合わせ