當(dāng)前速遞!ChatGPT 上“車(chē)”?沒(méi)那么簡(jiǎn)單
劃重點(diǎn):
車(chē)載語(yǔ)音智能化的短板在“語(yǔ)義理解”,AI 圈大火的 ChatGPT 對(duì)車(chē)載語(yǔ)音智能化加成明顯。
(相關(guān)資料圖)
ChatGPT 上車(chē),主要還是成本的問(wèn)題,這背后包括使用成本、云服務(wù)成本、針對(duì)性的訓(xùn)練成本。
云知聲董事長(zhǎng) & CTO_梁家恩對(duì) TechWeb 表示,ChatGPT 技術(shù)肯定會(huì)在車(chē)載、家居等智能交互應(yīng)用有建樹(shù),但需要結(jié)合應(yīng)用場(chǎng)景針對(duì)性?xún)?yōu)化。
思必馳汽車(chē)事業(yè)部產(chǎn)品總監(jiān)葛付江對(duì) TechWeb 表示,新技術(shù)發(fā)展一定會(huì)存在商業(yè)落地的挑戰(zhàn),AI 技術(shù)創(chuàng)新要結(jié)合場(chǎng)景應(yīng)用,類(lèi) ChatGPT 在車(chē)載的應(yīng)用會(huì)在算力優(yōu)化、云和端智能融合技術(shù)等方面形成挑戰(zhàn)。
ChatGPT 的火,一下子就燒到了車(chē)載領(lǐng)域。
眾所周知,語(yǔ)音交互是車(chē)內(nèi)最簡(jiǎn)潔、最人性化、最安全的交互方式,也是未來(lái)最主要的車(chē)內(nèi)交互方式。隨著 AI 和硬件性能的增強(qiáng),語(yǔ)音交互是未來(lái)汽車(chē)的絕對(duì)主流。語(yǔ)音交互主要是車(chē)載自然語(yǔ)音識(shí)別與語(yǔ)音助手,也可以簡(jiǎn)單地說(shuō)是 NLP 和 NLU 技術(shù)。既然是 NLP,那么理應(yīng)是最近在 AI 圈大火的 ChatGPT 的用武之地。事實(shí)真的如此嗎?
車(chē)載語(yǔ)音智能化,短板在“智能”
從技術(shù)角度看,智能語(yǔ)音交互主要有三大重點(diǎn),分別是識(shí)別、理解、執(zhí)行。在目前提供解決方案的廠商中,識(shí)別部分已經(jīng)趨于成熟,識(shí)別率可以達(dá)到 90% 以上,有的識(shí)別率已達(dá) 95% 左右。行業(yè)的痛點(diǎn)主要聚焦于“理解”部分,大部分的車(chē)載語(yǔ)音交互系統(tǒng)在“理解”上并不智能,導(dǎo)致整個(gè)系統(tǒng)功能單一、命令詞單一。
那么問(wèn)題來(lái)了,如何讓車(chē)載語(yǔ)音交互系統(tǒng)像人一樣理解我們的話語(yǔ)?
這就涉及到 NLP(自然語(yǔ)言處理)技術(shù),它們對(duì)于用戶(hù)輸入語(yǔ)音的理解與本身的場(chǎng)景策略、多輪對(duì)話有著密不可分的關(guān)系,并直接決定著車(chē)載語(yǔ)音交互系統(tǒng)的智能化程度。而提及 NLP,正中近期大“火”的 ChatGPT 的下懷,是 ChatGPT 的用武之地。
歷史上,NLP 的發(fā)展有幾個(gè)關(guān)鍵節(jié)點(diǎn),其中,最重要的兩個(gè)當(dāng)屬 2012 年和 2018 年。
2012 年,深度學(xué)習(xí)開(kāi)始應(yīng)用于 NLP 領(lǐng)域;2018 年開(kāi)始,以谷歌 BERT 為代表的語(yǔ)義表示預(yù)訓(xùn)練取得了巨大突破,橫掃各大 NLP 任務(wù)基準(zhǔn);2020 年 5 月,OpenAI 斥巨資打造的 GPT-3 一經(jīng)發(fā)表就引發(fā)行業(yè)轟動(dòng),這一版本的模型有 1750 億參數(shù)量,被稱(chēng)為 NLP 領(lǐng)域的最強(qiáng) AI 模型。
而最近大“火”的 ChatGPT 是基于大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型(GPT-3.5),借助其強(qiáng)大的語(yǔ)言理解和生成能力,通過(guò)在人工標(biāo)注和反饋的大規(guī)模數(shù)據(jù)上進(jìn)行學(xué)習(xí),從而讓預(yù)訓(xùn)練語(yǔ)言模型能夠更好地理解人類(lèi)的問(wèn)題并給出更好的回復(fù)。
思必馳汽車(chē)事業(yè)部產(chǎn)品總監(jiān) 葛付江對(duì) TechWeb 表示,ChatGPT 目前是以文本交互機(jī)器人的形式呈現(xiàn)的,適用多種文本處理任務(wù),常用于智能問(wèn)答和對(duì)話、文本創(chuàng)作等領(lǐng)域;車(chē)載語(yǔ)音以對(duì)話交互為主,多用于進(jìn)行例如“導(dǎo)航去 XXX?打開(kāi)音樂(lè)”有明確指令的行動(dòng),“語(yǔ)音助手”用高度擬人化的語(yǔ)音輸出來(lái)回應(yīng)車(chē)主訴求。車(chē)載語(yǔ)音交互用于解放駕駛員雙手,聚焦其注意力帶來(lái)更安全、便利的駕駛體驗(yàn)。未來(lái)車(chē)內(nèi)有了 ChatGPT 技術(shù)的應(yīng)用,不僅是完成固定指令的任務(wù)型對(duì)話,車(chē)、人能進(jìn)行更高效、更直接、高靈活度的出行、知識(shí)和閑聊交流;
“ChatGPT”的爆火讓市場(chǎng)看到了認(rèn)知智能應(yīng)用潛力。ChatGPT 在推理和學(xué)習(xí)能力上優(yōu)勢(shì)明顯,不僅可以用于理解和對(duì)話,更可以通過(guò)上下文交流和自我學(xué)習(xí),來(lái)實(shí)現(xiàn)輔助創(chuàng)作和知識(shí)進(jìn)化。這些能力同樣適用車(chē)載語(yǔ)音交互領(lǐng)域,融合對(duì)話智能技術(shù)、深度學(xué)習(xí)大模型技術(shù)、工程化能力、大數(shù)據(jù)的潛力,帶來(lái)更流暢、更有效的響應(yīng)。在車(chē)內(nèi)有限的空間,結(jié)合聲場(chǎng)定位和多說(shuō)話人判斷,提升多角色、長(zhǎng)上下文對(duì)話的邏輯一致性;更可以拓展?jié)M足方言、外語(yǔ)的統(tǒng)一識(shí)別和對(duì)話需求,快速實(shí)現(xiàn)更靈活、自由、個(gè)性化的交互。”葛付江說(shuō)道。
從目前諸多對(duì)于 ChatGPT 的使用(包括我們自己),我們認(rèn)為,僅就車(chē)載智能語(yǔ)音的 NLP,目前它應(yīng)該是最好和最智能的。這是否意味著,其就一定會(huì)在短期內(nèi)應(yīng)用在車(chē)載智能語(yǔ)音系統(tǒng)中嗎?
市場(chǎng)空間有限,產(chǎn)業(yè)鏈、市場(chǎng)挑戰(zhàn)猶存
眾所周知,一個(gè)新的技術(shù)或者產(chǎn)品能否最終落地得到規(guī)模的應(yīng)用,除了技術(shù)因素外,還會(huì)受到其所處產(chǎn)業(yè)或者市場(chǎng)的產(chǎn)業(yè)鏈、市場(chǎng)競(jìng)爭(zhēng)強(qiáng)弱、市場(chǎng)空間等諸多因素密切相關(guān)。
具體到車(chē)載智能語(yǔ)音系統(tǒng),雖然 ChatGPT 在“智能”上表現(xiàn)出色,但其在整個(gè)產(chǎn)業(yè)鏈條中比較偏后段,需要依賴(lài)很長(zhǎng)的前端鏈條,比如信號(hào)處理、語(yǔ)音識(shí)別、文字輸出之后才會(huì)用到它,前端鏈條上的因素對(duì)后端流程都會(huì)產(chǎn)生影響,例如信號(hào)處理會(huì)影響語(yǔ)音識(shí)別,語(yǔ)音識(shí)別如果出錯(cuò)就會(huì)影響 NLP 的判斷,鏈條上每個(gè)模塊都需要提高可靠性,才能保證最后出來(lái)的整體結(jié)果可靠。這意味著,ChatGPT 在“智能”能力的輸出上,并非完全取決于自身的能力,其產(chǎn)業(yè)鏈上任何一個(gè)環(huán)節(jié)都會(huì)對(duì)其造成正或負(fù)的影響。
云知聲董事長(zhǎng) & CTO_梁家恩對(duì) TechWeb 表示,ChatGPT 技術(shù)肯定會(huì)在車(chē)載、家居等智能交互應(yīng)用有建樹(shù),但需要結(jié)合應(yīng)用場(chǎng)景針對(duì)性?xún)?yōu)化,提高體驗(yàn)并降低服務(wù)成本等。
“車(chē)載等智能交互應(yīng)用場(chǎng)景有很大體驗(yàn)升級(jí)空間,但目前 ChatGPT 是一個(gè)超大模型,如何保持體驗(yàn)情況下,顯著降低服務(wù)成本是個(gè)關(guān)鍵問(wèn)題“。
而從市場(chǎng)競(jìng)爭(zhēng)的強(qiáng)弱看,據(jù)相關(guān)統(tǒng)計(jì),目前車(chē)載語(yǔ)音系統(tǒng)市場(chǎng)除了已經(jīng)被科大訊飛和 Cerence 壟斷,且它們?cè)诖祟I(lǐng)域具有多年的產(chǎn)品和合作經(jīng)驗(yàn)外,還有許多規(guī)模不同的企業(yè)參與其中,更為重要的是,目前車(chē)載語(yǔ)音市場(chǎng)已經(jīng)遇到了增長(zhǎng)的天花板,這使得在競(jìng)爭(zhēng)激烈的同時(shí),就連科大訊飛和 Cerence 都開(kāi)始除了語(yǔ)音之外,開(kāi)始走車(chē)內(nèi)多模態(tài)交互,云服務(wù)集成等服務(wù)的路線,以綜合實(shí)力提升競(jìng)爭(zhēng)力。作為后來(lái)者的 ChatGPT 一旦決定進(jìn)入車(chē)載智能語(yǔ)音市場(chǎng)勢(shì)必會(huì)面臨強(qiáng)大對(duì)手的挑戰(zhàn)。
葛付江補(bǔ)充稱(chēng),從成本來(lái)看,ChatGPT 的研究需要巨大的資金和人才投入,他們需要超算平臺(tái)、算法、數(shù)據(jù)等各核心力量支撐,這些都是成本。巨頭平臺(tái)公司目前來(lái)看具備這方面的優(yōu)勢(shì),對(duì)于科技企業(yè)可以更多從場(chǎng)景融合入手,尋求創(chuàng)新機(jī)會(huì)。
從商業(yè)化場(chǎng)景看,目前 chatGPT 更適用于基于一定背景知識(shí)的創(chuàng)作型產(chǎn)業(yè),以及剛需 AIGC 的場(chǎng)景、SOP(標(biāo)準(zhǔn)作業(yè)程序)的行業(yè),比如智能寫(xiě)作、智能客服、文檔管理、代碼生成、甚至游戲 NPC 等。
班門(mén)弄斧主理人孫永杰指出,從單純的車(chē)載語(yǔ)音市場(chǎng)看,其市場(chǎng)空間并不大,這點(diǎn)從已經(jīng)壟斷該市場(chǎng)的科大訊飛和 Cerence 的財(cái)報(bào)可見(jiàn)一斑。這種情況下,能否吸引成本高昂的 ChatGPT 進(jìn)入也是個(gè)未知數(shù)。畢竟 ChatGPT 訓(xùn)練成本高昂,且其所屬的 Open AI 依然處在虧損當(dāng)中。
未來(lái)仍可期,合作和開(kāi)放 API 或是更好選擇
如前述可知,ChatGPT 只是在車(chē)載智能語(yǔ)音的 NLP 環(huán)節(jié)具備優(yōu)勢(shì),雖然 ChatGPT 據(jù)稱(chēng)也在進(jìn)行語(yǔ)音識(shí)別和合成上進(jìn)行 AI 訓(xùn)練,希望未來(lái)可以借此進(jìn)入車(chē)載智能語(yǔ)音市場(chǎng)。但鑒于 ChatGPT 只是文本交互方式,即便是進(jìn)行語(yǔ)音識(shí)別和合成的 AI 訓(xùn)練,最后效果如何?能否超過(guò)目前市面上存在和已經(jīng)應(yīng)用的車(chē)載智能語(yǔ)音系統(tǒng)仍是未知。
當(dāng)然,鑒于 ChatGPT 強(qiáng)大的能力,TechWeb 認(rèn)為未來(lái)的市場(chǎng)空間會(huì)隨著智能汽車(chē)應(yīng)用場(chǎng)景的不斷擴(kuò)大,ChatGPT 找到自己真正的用武之地并非沒(méi)有可能。更值得期待的是,除了智能汽車(chē)本身外,站在整個(gè)汽車(chē)產(chǎn)業(yè)的高度,其未來(lái)在汽車(chē)設(shè)計(jì)、制造等領(lǐng)域的應(yīng)用都充滿想象的空間。
葛付江表示:“ChatGPT 上車(chē)的應(yīng)用具體如何發(fā)展,目前形勢(shì)還不明朗??深A(yù)見(jiàn)的是,在車(chē)載場(chǎng)景下,大模型技術(shù)學(xué)習(xí)能力優(yōu)勢(shì)明顯,通過(guò)強(qiáng)化上下文理解能力、思維鏈推理、增強(qiáng)指令學(xué)習(xí),來(lái)實(shí)現(xiàn)持續(xù)學(xué)習(xí),達(dá)成可以“回答類(lèi)似問(wèn)題”的效果,除指令需求外,日常的知識(shí)和閑聊對(duì)話交流可以更加流暢和有用。總體來(lái)說(shuō),技術(shù)會(huì)向統(tǒng)一多模態(tài)交互發(fā)展,強(qiáng)化語(yǔ)音、文本、圖像等深度融合的多模態(tài)交互技術(shù),形成“汽車(chē)大腦”,應(yīng)對(duì)車(chē)內(nèi)、公共空間等復(fù)雜場(chǎng)景的交互需求?!?/p>
小鵬技術(shù)團(tuán)隊(duì)對(duì) TechWeb 表示,ChatGPT 的語(yǔ)言組織能力很強(qiáng),以及知識(shí)庫(kù)也比較龐大,涉及領(lǐng)域更廣,所以可能會(huì)給用戶(hù)的體驗(yàn)更好更智能。至于我們未來(lái)要 不要引入這個(gè)技術(shù)接口,還是做類(lèi)似技術(shù)的融合開(kāi)發(fā),我們也在進(jìn)一步探索~
基于此,TechWeb 認(rèn)為,合作應(yīng)該是 ChatGPT 切入車(chē)載智能語(yǔ)音市場(chǎng)最經(jīng)濟(jì)和有效的方式。所謂各取所長(zhǎng)就是這個(gè)道理。實(shí)際的情況是,近日國(guó)內(nèi)集度汽車(chē)宣布將融合百度文心一言的全面能力,打造全球首個(gè)針對(duì)智能汽車(chē)場(chǎng)景的大模型人工智能交互體驗(yàn),證明了此模式的可行性。
此外,將自己最擅長(zhǎng)的能力通過(guò) API 開(kāi)放給第三方,僅輸出自身最擅長(zhǎng)的能力也不失為明智的選擇。