Menu
Menu
首頁
興櫃上市櫃進度表
EPS 排行榜
新聞與公告
除權息一覽表
我的投資組合
未上市產業一欄表
熱門股話題
其他連結
電腦版瀏覽
集邦科技股份有限公司-個股新聞
從視覺模型剖析人形機器人進展 ...
現今人形機器人模型發展重點包含視覺-動作學習模型(VLA)的 優化,以及結合多元數據、提升指令解讀與理解人類意圖。在訓練數 據方面,主要透過世界模型、人類影片與VR遠端訓練等方式,並更著 重「第一人稱視角」,以增強其感知能力。儘管人形機器人的最終目 標是實現通用性,但模型發展仍面臨諸多挑戰,導致歐美與中國廠商 發展出不同的路徑。
早期機器人設計多是功能導向,設計框架以模組化為核心,但往往 因採用特定情境的數據,模型泛化能力較弱,使機器人適應新環境的 能力有限。目前雖有視覺語言模型(VLM)強化模型的感知理解、推 理能力,卻常發生難以將抽象推論轉化成符合物理世界行為的情況, 模型發展因此逐漸轉向視覺-VLA。
VLA模型如同模擬人類在重複動作中,會不斷調整運作策略以實現 運動控制和協調,能幫助機器人在不依賴經驗和知識的情況下,嘗試 適應新環境。現階段VLA模型主要藉由合成數據拓展場景多樣性,並 結合世界模型增強對重力、碰撞等物理現象和行為的理解及應用,藉 此提升在不同場景執行任務的效率。然而,合成數據和世界模型在高 精度影像或複雜的互動行為,仍不及人工收集的數據。
過去機器視覺或自駕技術等視覺模型,多以第三人稱的鳥瞰視角( BEV)為設計核心,但BEV可能不利機器人的動作協調與辨識效率。舉 例來說,人類會踮腳、轉頭確認櫃子裡是否還有置物空間,然多數基 於BEV的模型常簡化視差和景深,加上以相對距離建立環境辨識易影 響聚焦,降低機器人的辨識、抓握能力。
隨著視角的問題浮現,VR或手機影像被視為以第一人稱視角訓練模 型的重要方式,以實現機器人更自然的遞交、避讓等「微行為」。2 024年美國UCSD與MIT共同開發通用框架Open-TeleVision,以AppleV ision Pro訓練機器人。今年Apple也公布「HAT(Human Action Tra nsformer)模型」強化機器人的模仿學習,並和美國諸多大學合作推 出「PH2D」資料集,涵蓋抓取、傳遞、傾倒等日常動作。
數據多元性與視角問題是模型從實驗室走向實際部署的關鍵,而模 型將直接影響人形機器人效能,已成為廠商產品差異化與競爭力關鍵 。目前中國廠商主打「端到端」架構,強調底層多模態協作提升機器 人的靈活性,並以具身AI為發展方向。例如中國星動紀元於去年底推 出原生端對端機器人大模型ERA-42,讓機器人具備即時的適應能力。
相較之下,歐美廠商展現更專業的分工型態,AI大廠和新創多聚焦 開發通用大模型,機器人廠商則專注於垂直領域。如Google DeepMi nd今年6月推出「Gemini Robotics On-Device」,開放開發者進行微 調,強調僅需50~100次的演示,即可讓模型學會適應新任務,並適 用於不同的機器人。
Tesla和Boston Dynamics則聚焦製造領域,Agility Robotics著重 於物流倉儲,皆是應用明確的場景。廠商不僅能從中累積專用數據, 建立「護城河」,在數據管理與模型設計上,模組化的模型架構更容 易合乎產業標準與法規要求。
2025-09-03
By: 摘錄工商A7版