集邦科技股份有限公司 - 個股新聞

從視覺模型剖析人形機器人進展 ...

　現今人形機器人模型發展重點包含視覺－動作學習模型（VLA）的優化，以及結合多元數據、提升指令解讀與理解人類意圖。在訓練數據方面，主要透過世界模型、人類影片與VR遠端訓練等方式，並更著重「第一人稱視角」，以增強其感知能力。儘管人形機器人的最終目標是實現通用性，但模型發展仍面臨諸多挑戰，導致歐美與中國廠商發展出不同的路徑。

　　早期機器人設計多是功能導向，設計框架以模組化為核心，但往往因採用特定情境的數據，模型泛化能力較弱，使機器人適應新環境的能力有限。目前雖有視覺語言模型（VLM）強化模型的感知理解、推理能力，卻常發生難以將抽象推論轉化成符合物理世界行為的情況，模型發展因此逐漸轉向視覺－VLA。

　　VLA模型如同模擬人類在重複動作中，會不斷調整運作策略以實現運動控制和協調，能幫助機器人在不依賴經驗和知識的情況下，嘗試適應新環境。現階段VLA模型主要藉由合成數據拓展場景多樣性，並結合世界模型增強對重力、碰撞等物理現象和行為的理解及應用，藉此提升在不同場景執行任務的效率。然而，合成數據和世界模型在高精度影像或複雜的互動行為，仍不及人工收集的數據。

　　過去機器視覺或自駕技術等視覺模型，多以第三人稱的鳥瞰視角（ BEV）為設計核心，但BEV可能不利機器人的動作協調與辨識效率。舉例來說，人類會踮腳、轉頭確認櫃子裡是否還有置物空間，然多數基於BEV的模型常簡化視差和景深，加上以相對距離建立環境辨識易影響聚焦，降低機器人的辨識、抓握能力。

　　隨著視角的問題浮現，VR或手機影像被視為以第一人稱視角訓練模型的重要方式，以實現機器人更自然的遞交、避讓等「微行為」。2 024年美國UCSD與MIT共同開發通用框架Open-TeleVision，以AppleV ision Pro訓練機器人。今年Apple也公布「HAT（Human Action Tra nsformer）模型」強化機器人的模仿學習，並和美國諸多大學合作推出「PH2D」資料集，涵蓋抓取、傳遞、傾倒等日常動作。

　　數據多元性與視角問題是模型從實驗室走向實際部署的關鍵，而模型將直接影響人形機器人效能，已成為廠商產品差異化與競爭力關鍵。目前中國廠商主打「端到端」架構，強調底層多模態協作提升機器人的靈活性，並以具身AI為發展方向。例如中國星動紀元於去年底推出原生端對端機器人大模型ERA-42，讓機器人具備即時的適應能力。

　　相較之下，歐美廠商展現更專業的分工型態，AI大廠和新創多聚焦開發通用大模型，機器人廠商則專注於垂直領域。如Google DeepMi nd今年6月推出「Gemini Robotics On-Device」，開放開發者進行微調，強調僅需50～100次的演示，即可讓模型學會適應新任務，並適用於不同的機器人。

　　Tesla和Boston Dynamics則聚焦製造領域，Agility Robotics著重於物流倉儲，皆是應用明確的場景。廠商不僅能從中累積專用數據，建立「護城河」，在數據管理與模型設計上，模組化的模型架構更容易合乎產業標準與法規要求。

2025-09-03

By: 摘錄工商A7版

股票資訊網

集邦科技股份有限公司-個股新聞