由中國(guó)汽車技術(shù)研究中心有限公司、中國(guó)汽車工程學(xué)會(huì)、中國(guó)汽車工業(yè)協(xié)會(huì)、中國(guó)汽車報(bào)社共同主辦,天津經(jīng)濟(jì)技術(shù)開(kāi)發(fā)區(qū)管理委員會(huì)特別支持,日本汽車工業(yè)協(xié)會(huì)、德國(guó)汽車工業(yè)協(xié)會(huì)、中國(guó)汽車動(dòng)力電池產(chǎn)業(yè)創(chuàng)新聯(lián)盟、新能源汽車國(guó)家大數(shù)據(jù)聯(lián)盟聯(lián)合協(xié)辦的第二十屆中國(guó)汽車產(chǎn)業(yè)發(fā)展(泰達(dá))國(guó)際論壇(以下簡(jiǎn)稱“泰達(dá)汽車論壇”)于2024年8月29日至9月1日在天津?yàn)I海新區(qū)舉辦。本屆論壇以“風(fēng)雨同舟二十載 攜手并肩向未來(lái)”為年度主題,邀請(qǐng)重磅嘉賓展開(kāi)深入研討。
在9月1日“科技生態(tài)方向圓桌論壇一:20年新引擎——深化人工智能技術(shù)的垂直化應(yīng)用”中,商湯絕影創(chuàng)新中心高級(jí)總監(jiān)李曉華發(fā)表題為“多模態(tài)大模型 打造下一代座艙大腦”的演講。
商湯絕影創(chuàng)新中心高級(jí)總監(jiān) 李曉華
以下為演講實(shí)錄:
大家上午好!我是來(lái)自商湯絕影的李曉華。大模型在車領(lǐng)域,無(wú)論是大語(yǔ)言模型還是多模態(tài)模型,都帶來(lái)了許多新的體驗(yàn)。
首先,我想播放一個(gè)小視頻,來(lái)展現(xiàn)多模態(tài)大模型在車行業(yè)中所帶來(lái)的全新體驗(yàn)。(播放視頻)
剛剛播放的這個(gè)視頻主要展示了多模態(tài)大模型如同一個(gè)助手,時(shí)刻關(guān)注著座艙內(nèi)以及車外發(fā)生的事情。例如,它能判斷車輛是否在公交車道行駛,是否有交警指揮,并能給出更好的建議。
接下來(lái),我將為大家介紹一張多模態(tài)大模型的業(yè)務(wù)圖。我們可以將這張圖分為三層,最下面一層橙色部分是模型層,其中包括車端側(cè)的模型和云端的模型。車端側(cè)的模型可根據(jù)需求部署 2.1B、8B等規(guī)模的模型,用于進(jìn)行端側(cè)的多模態(tài)大模型推理。
在云端,則可以部署更大規(guī)模的模型,如 20B、100多B的模型。此外,云端除了多模態(tài)大模型外,還包括一些其他云類模型,如車書、醫(yī)療方面的模型,這些都適用于車領(lǐng)域的場(chǎng)景。上面藍(lán)色部分是引擎層,考慮到底層模型,包括記憶、推理框架等,使用起來(lái)相對(duì)復(fù)雜,因此我們構(gòu)建了引擎層。引擎層主要有兩個(gè)產(chǎn)品:
第一個(gè)是座艙大腦,它主要有以下幾個(gè)能力:
1.能夠很好地感知座艙內(nèi)的情況,例如識(shí)別人的穿著、性別,細(xì)致觀察座艙內(nèi)的細(xì)節(jié)特征,包括物品,如手機(jī)、寵物、帽子、眼鏡等,都能識(shí)別出來(lái)。
2.能夠感知一些行為,如打電話、吃東西等,并能有效地輸出。
3.能夠進(jìn)行環(huán)境推理和意圖推理,例如識(shí)別出兩個(gè)人在交流、在討論高興的事情等。
4.具有跨時(shí)空的記憶能力,能夠很好地記住座艙內(nèi)的人員以及共同經(jīng)歷的事情。就像剛才的 Demo 中第一個(gè)場(chǎng)景提到的 “去我們上次去的那個(gè)咖啡館”,它能記住上次與誰(shuí)一起去的咖啡館,并且能識(shí)別出這次的人員是否與上次相同,這種能力可以作為座艙內(nèi)產(chǎn)品的輸出。
第二個(gè)產(chǎn)品是全時(shí)駕駛輔助,它利用多模態(tài)大模型的能力感知車外場(chǎng)景,包括道路條件,如是否有積水、挖坑、道路是否坑洼等,并能做出相應(yīng)推薦,例如車輛應(yīng)如何調(diào)節(jié)以適應(yīng)路況,以及光照、逆光等情況,它都可以作為行駛策略的輔助。此外,它還能提供決策輔助,感知周圍路況,如識(shí)別出眾多電動(dòng)車、路邊攤販、救護(hù)車等,并做出決策輔助。最后,它還能提供一些判斷條件,包括司機(jī)的狀態(tài)、通行障礙等。這個(gè)產(chǎn)品主要感知車外能力,為駕駛提供輔助推薦。
下面,我將從技術(shù)角度介紹端云參考架構(gòu)。這張圖展示了我們的多模態(tài)模型可以單獨(dú)部署在端側(cè),也可以部分部署在端側(cè),部分部署在云側(cè),而語(yǔ)言類模型可以純粹部署在云側(cè)。從最左邊開(kāi)始,用戶發(fā)出聲音后,通過(guò)語(yǔ)音轉(zhuǎn)成 SR 文本,包括 OMS 攝像頭等數(shù)據(jù),都將經(jīng)過(guò)數(shù)據(jù)處理模塊,對(duì)圖片、文字、聲音以及車的信號(hào)進(jìn)行處理。然后進(jìn)入觸發(fā)器模塊,該模塊主要考慮端云結(jié)合的情況,根據(jù)一些觸發(fā)信號(hào),如開(kāi)關(guān)門或用戶提問(wèn)來(lái)進(jìn)行觸發(fā)。如果是純端側(cè)算力方案,則可以不斷觸發(fā)。接下來(lái)是進(jìn)入任務(wù)調(diào)度模塊,然后到端側(cè)模型。如果是端云一體的模型,我們會(huì)在端側(cè)主要對(duì)圖像進(jìn)行圖像特征向量化的提取,將端側(cè)的特征送到云端進(jìn)行推理生成。在云端做出推薦后,它可以進(jìn)入到行動(dòng)詞,該行動(dòng)詞具有車輛插件的能力以及其他智能體的配合,構(gòu)建了一個(gè)工作流。
接下來(lái),我想講一下大模型在座艙合作的模式。首先,在部署方面,我們剛才提到可以部署在純?cè)贫耍部梢圆捎枚撕驮平Y(jié)合的方式。云端可以通過(guò)自研的推理框架,支持 100 多個(gè)算子庫(kù),能夠高效地進(jìn)行端側(cè)模型計(jì)算。在生態(tài)開(kāi)發(fā)方面,可以實(shí)現(xiàn)服務(wù)應(yīng)用的便捷開(kāi)發(fā),并且通過(guò)安全沙箱實(shí)現(xiàn)端側(cè)與云側(cè)隱私安全的隔離。下一步是持續(xù)更新,通過(guò)數(shù)據(jù)閉環(huán),將用戶反饋的數(shù)據(jù)通過(guò)閉環(huán)進(jìn)行訓(xùn)練,通過(guò)私有化的 SFT 進(jìn)行微調(diào),以加強(qiáng)大模型的能力。最后,在合作模式上,我們前面介紹過(guò),從模型層、產(chǎn)品引擎層到上層的應(yīng)用層,都可以進(jìn)行不同方式的合作。
最后,我想談一談車類產(chǎn)品離不開(kāi)芯片平臺(tái)的支持。在過(guò)去的一年,我們?cè)诟咄?、英偉達(dá)的 Orin 基礎(chǔ)上完成了端側(cè)框架的聯(lián)調(diào)適配。今年,我們主要在 MTK8678 平臺(tái)上進(jìn)行模型算子的調(diào)節(jié)。后面,我們還會(huì)在英偉達(dá)的 Sora、Intel 等芯片上進(jìn)行多模態(tài)模型的部署。
今天我的分享就到這里,謝謝大家!