2023-06-25 14:12:11 來源 : 國盛證券有限責任公司
(資料圖片僅供參考)
RoboCat 面世,“Self-improving”為通用機器人鋪平道路。1)近期,Googel DeepMind 推出RoboCat,其基于其多模態模型Gato,可在模擬和物理環境中處理語言、圖像和動作。2)自我提升的關鍵在于自我生成訓練數據。RoboCat 可基于輸入的機械臂操作實例,通過練習生成新的訓練數據,并將新數據合并進入訓練集,用于新版本RoboCat 的訓練,持續迭代。3)“通用性學習能力”為RoboCat 強項,可快速適應不同機械臂和任務操作。在多樣化訓練下,即使新的機械臂更加復雜,它也能在幾個小時內學會操作,并且在觀察1000 個由人類控制的示范項目(僅僅幾個小時就收集完畢)后,便能靈巧指揮新的機械臂。4)RoboCat 具備良性的訓練循環,學習新任務越多,就能更好學習額外新任務。最初版本只有36%概率成功完成以前未接觸的任務,但最新版本已接受更多不同任務訓練,成功率增加一倍多。同時,RoboCat 完成現實世界訓練任務的成功率要遠高于傳統基于視覺的模型方案。5)RoboCat 獨立學習技能和快速自我提高的能力,特別是應用于不同的機器人時,將有助于為新一代更有效、通用的機器人鋪平道路。
從通用機器人到行業機器人,“ViT+GPT+機械”為標準范式。1)行業機器人的實現難度相對通用機器人更低,而多模態GPT 的發展是通往行業機器人的鑰匙。多模態GPT 助力機器人在交互能力、規劃控制能力、泛化能力、感知能力等多方面得到極大提升。與此同時,ViT 可應用于各種模態,使用transformer 編碼器得到包含輸入模態特征的編碼,可行性已經得到了以上業界眾多工作的驗證,成為了多模態GPT 的典型范式。
Google 推出5620 億參數的PalM-E 模型,將540B PaLM 和ViT-22B 結合。通過ViT 將連續的具體觀察結果(例如圖像、狀態估計或其他傳感器模態)以類似于語言的方式注入到語言模型中,可以執行多種具體任務,包括機器人操作規劃、視覺問題解答、生成字幕等。并具備能與數據集中不存在的物體交互的泛化能力。2)執行器是實現動態運動的最關鍵的部分,當前業界與學界有眾多型號的人形機器人,分別采用不同的方案。根據UCLA《Design of a Highly Dynamic Humanoid Robot》分類,目前有腿機器人的執行器方案可分為高速齒輪減速+力矩傳感器執行器、串聯彈性執行器、本體驅動器和液壓執行器等。伴隨機器人需求持續釋放,產業鏈也有望迎來景氣。
建議關注算法及行業機器人潛力公司:1)硬件供應商:三花智控、拓普集團、鳴志電器、綠的諧波、峰岹科技等。2)潛力方案廠商:大華股份、海康威視、千方科技、中科創達、中科信息、云從科技、億嘉和、螢石網絡、商湯科技等。
風險提示:機器人技術迭代不及預期風險;經濟下行超預期風險;行業競爭加劇風險。
標簽: