中國(guó)首個(gè)通用具身基座模型發(fā)布
發(fā)布時(shí)間:2025-03-11 19:06閱讀次數(shù):
次
3月10日,上海機(jī)器人初創(chuàng)公司智元機(jī)器人正式發(fā)布智元啟元大模型GenieOperator-1(GO-1),這是中國(guó)首個(gè)通用具身基座模型。智元機(jī)器人表示,這款模型具有泛化能力,能夠在極少數(shù)據(jù)甚至零樣本下泛化到新場(chǎng)景、新任務(wù),降低了具身模型的使用門檻,降低了后訓(xùn)練成本。據(jù)介紹,該模型開創(chuàng)性地提出了Vision-Language-Latent-Action(ViLLA)架構(gòu),實(shí)現(xiàn)了可以利用人類視頻學(xué)習(xí),完成小樣本快速泛化。ViLLA架構(gòu)是由VLM(多模態(tài)大模型) + MoE(混合專家)組成,其中VLM借助海量互聯(lián)網(wǎng)圖文數(shù)據(jù)獲得通用場(chǎng)景感知和語(yǔ)言理解能力,MoE中的Latent Planner(隱式規(guī)劃器)借助大量跨本體和人類操作數(shù)據(jù)獲得通用的動(dòng)作理解能力,MoE中的Action Expert(動(dòng)作專家)借助百萬真機(jī)數(shù)據(jù)獲得精細(xì)的動(dòng)作執(zhí)行能力。在推理時(shí),VLM(多模態(tài)大模型)、Latent Planner(隱式規(guī)劃器)和Action Expert(動(dòng)作專家)三者協(xié)同工作。目前智元啟元大模型已成功部署到智元多款機(jī)器人本體。(摘自——財(cái)聯(lián)社)