NVIDIA X-Mobility 於四足機器人的實際應用

2025-09-30

前言

近年來,四足機器人在智慧製造、安防巡檢與科研教育領域持續受到關注。相較於輪式或履帶式機器人,四足機器人的核心優勢在於對複雜地形的適應能力。然而,如何讓四足機器人在多變且非結構化的真實環境中穩定運作,一直是業界尚未完全解決的挑戰。

在此背景下,NVIDIA 發布的 X-Mobility 模型提供了具體可行的突破方向。透過將此模型整合至我們的四足機器人平台,並結合自有的系統整合能力,我們在移動智慧方面取得了顯著進展。

什麼是 NVIDIA X-Mobility

NVIDIA X-Mobility(全名:End-to-End Generalizable Navigation via World Modeling)是一套端到端的導航與動作控制模型,已發布於 Hugging Face。其核心目標是讓機器人在多樣化環境中保持穩定且具備泛化能力的移動表現。

圖1. 在自訂的虛擬環境中對障礙物進行語意分割

Technical Features

  • 技術特點
  • 輸入: RGB 影像、機器人狀態(如速度、姿態),以及可選的路徑資訊
  • 輸出: 動作指令(線速度、角速度)
  • 核心架構:
    • Vision Transformer,用於提取高階視覺特徵
    • 含遞迴模組的狀態估計網路,用於處理時序資料與非馬可夫依賴性
    • 多任務學習(影像重建 + 語義分割),以實現更穩健的潛在狀態表示
  • 部署平台: 相容 TensorRT,可部署於 NVIDIA Jetson 及其他 GPU,支援即時推論

圖2. 訓練中的語意擬合表現,其中綠色代表可通行區域

為何選擇 X-Mobility

過去的四足機器人主要依賴預設步態與傳統控制器(如 MPC 或 PID)。這套方法在結構化環境中表現穩定,但面對動態或未知場景時,適應能力明顯不足。

X-Mobility 在以下幾個面向具備關鍵優勢:

  1. 端到端學習: 無需人工設計複雜控制邏輯,模型可直接從感知輸入輸出控制指令,大幅降低系統設計複雜度。
  2. 跨場景泛化能力: 模型在倉庫、走廊、狹窄通道等環境完成訓練後,可有效遷移至相似的真實場景,無需逐場景重新調校。
  3. GPU 加速推論: 結合 NVIDIA 硬體與 TensorRT 最佳化,模型在動態障礙物迴避等延遲敏感任務中仍能維持流暢表現。

我們的整合實驗

我們將 X-Mobility 部署於自有四足機器人平台,並進行多場景驗證測試。

  • 硬體配置:
    • 搭載 NVIDIA Jetson Orin 的四足機器人
    • 感測器:RGB 攝影機、IMU、速度編碼器
  • 軟體架構:
    • 基於 ROS2 的控制框架
    • TensorRT 推論最佳化,延遲降至毫秒級
  • 實驗場景:
    • 模擬工廠走廊: 機器人成功識別狹窄通道中的障礙物,並自主規劃側邊繞行路徑完成穿越。(圖3)
    • 真實辦公室環境: 機器人在實際環境中完成路徑規劃,自主迴避桌椅與行人,無需人工干預。(圖4)

圖3. 模型對走廊影像的語意分割結果,其中綠色標示為可導航區域

Fig. 4. Obstacle avoidance test performed in a real-world environment.

下一步:語言指令與自主決策整合

我們下一階段的目標,是將 X-Mobility 與視覺語言模型(VLM)結合,使四足機器人能夠理解自然語言指令——例如「前往 A 區巡檢」或「將物料運送至 B 倉」——並具備自主任務決策能力。

長期而言,這套整合架構將推動智慧工廠、AI 機器人與自動化物流的深度融合,讓四足機器人真正成為廠區中可協同作業的智慧夥伴。

結論

導入 NVIDIA X-Mobility,讓我們的四足機器人從「展示平台」轉變為具備實際部署價值的生產工具。這不僅是技術層面的突破,更是推動智慧製造進入下一階段的重要里程碑。

Source: https://developer.nvidia.com/blog/streamline-robot-learning-with-whole-body-control-and-enhanced-teleoperation-in-nvidia-isaac-lab-2-3/

相關文章
2025-06-17

AI 如何驅動預測性維護的未來

了解更多
2025-06-12

靈活感知的突破:星科國際四足機器人抬頭模組的設計理念

了解更多