網(wǎng)易數(shù)帆發(fā)布對(duì)話式BI產(chǎn)品 試圖抓住垂類大模型的機(jī)會(huì)
8月10日,網(wǎng)易數(shù)帆發(fā)布了AIGC技術(shù)方向的對(duì)話式BI(商業(yè)智能)產(chǎn)品有數(shù)ChatBI,相較于目前正在流行的對(duì)話式產(chǎn)品,有數(shù)ChatBI主要想強(qiáng)調(diào)的屬性在于“數(shù)據(jù)的可信”。
網(wǎng)易數(shù)帆大數(shù)據(jù)產(chǎn)品線總經(jīng)理余利華表示,數(shù)字化時(shí)代,多個(gè)經(jīng)營環(huán)節(jié)需要用數(shù)據(jù)支撐決策已經(jīng)成為常態(tài),企業(yè)數(shù)據(jù)分析需求量大幅度上升。
以網(wǎng)易數(shù)帆某客戶為例,其月均數(shù)據(jù)分析需求量超過了200,策劃、運(yùn)營、用戶體驗(yàn)、QA等不同崗位都提出了用數(shù)的需求,其中運(yùn)營相關(guān)的臨時(shí)或緊急的需求占比很高。但由于數(shù)據(jù)分析流程的專業(yè)性和分析人才的稀缺性,傳統(tǒng)數(shù)據(jù)分析顯得耗時(shí)而低效。
【資料圖】
AI產(chǎn)品盡管可以幫助提升效率,其答案的可信度卻很成問題。網(wǎng)易數(shù)帆方面表示,類ChatGPT產(chǎn)品并不能帶來完全準(zhǔn)確的回答,主要原因在于兩點(diǎn),首先,類ChatGPT產(chǎn)品更擅長處理自然語言文本數(shù)據(jù)相關(guān)任務(wù),并非專門為數(shù)據(jù)分析而設(shè)計(jì);其次,通用大模型可能存在捏造事實(shí),也即“AI幻覺”,在BI領(lǐng)域可能是捏造字段,這在數(shù)據(jù)分析中可能成為致命問題。
于是,在數(shù)據(jù)分析領(lǐng)域?qū)埂癆I幻覺”出現(xiàn)的可能性,成為有數(shù)ChatBI團(tuán)隊(duì)的首要任務(wù)之一。
余利華表示,“AI幻覺”的產(chǎn)生是由于訓(xùn)練數(shù)據(jù)不足、文本與表示之間的編解碼錯(cuò)誤等因素,于是團(tuán)隊(duì)打造可信的ChatBI需要在需求理解、過程驗(yàn)證、用戶干預(yù)和產(chǎn)品運(yùn)營四個(gè)方面著手。
具體而言,網(wǎng)易數(shù)帆需要借助大模型的語言理解能力,先進(jìn)行用戶的需求分析,并幫助BI初級(jí)使用者通過需求分析內(nèi)容判斷系統(tǒng)的取數(shù)步驟是否正確;過程驗(yàn)證指的是借助基于大模型的NL2SQL能力實(shí)現(xiàn)復(fù)核,余利華介紹,為了提升NL2SQL能力,網(wǎng)易數(shù)帆有針對(duì)性地定制生成和優(yōu)化了超過30萬不同類型的問法和SQL,目前調(diào)優(yōu)出的NL2SQL領(lǐng)域模型,效果已達(dá)到GPT-3.5的水平;用戶干預(yù)即將數(shù)據(jù)模型和查詢條件結(jié)構(gòu)化,用戶可切換數(shù)據(jù)模型或者查詢條件;產(chǎn)品運(yùn)營方面則構(gòu)建了運(yùn)營反饋機(jī)制,用戶可反饋數(shù)據(jù)準(zhǔn)確性,管理員通過運(yùn)營知識(shí)庫、標(biāo)記及優(yōu)化badcase提升數(shù)據(jù)可靠性。
在實(shí)際應(yīng)用中,以大型連鎖超市的銷售部門場景為例,產(chǎn)品人員輸入“我想看今年上半年華北地區(qū)每個(gè)月的利潤”,有數(shù)ChatBI可給出相應(yīng)結(jié)果,并用自然語言描述了查詢的邏輯與步驟。掌握SQL的專業(yè)人員可以點(diǎn)擊“更多”按鈕查看對(duì)應(yīng)的SQL。如果邏輯有誤,例如用戶想看“訂單日期”在上半年的數(shù)據(jù),但是AI篩選的是“發(fā)貨日期”,用戶可點(diǎn)擊“修改查詢條件”進(jìn)行對(duì)校正。
從產(chǎn)品發(fā)展的角度看來,網(wǎng)易數(shù)帆當(dāng)下對(duì)于通用大模型和垂直行業(yè)大模型到底更偏向哪一方?
網(wǎng)易副總裁、網(wǎng)易杭州研究院執(zhí)行院長、網(wǎng)易數(shù)帆總經(jīng)理汪源對(duì)界面新聞等媒體表示,“原則上來講,我們現(xiàn)在的實(shí)際情況是既做通用的大模型,也做垂直的大模型,這兩者之間是支撐的關(guān)系,(但)最終的出口是做垂類的模型,而且是應(yīng)用在我們所最關(guān)注的兩個(gè)領(lǐng)域,一個(gè)是軟件開發(fā)、一個(gè)是數(shù)據(jù)分析。”
他表示,為了做好垂類模型,團(tuán)隊(duì)本身需要一個(gè)“公共底座”,也就是網(wǎng)易“玉言”模型。目前,該模型由網(wǎng)易的核心實(shí)驗(yàn)室和杭研的人工智能團(tuán)隊(duì)兩個(gè)團(tuán)隊(duì)為主,后期會(huì)加入更多集團(tuán)其他團(tuán)隊(duì)共同打造網(wǎng)易集團(tuán)的大模型底座。
(文章來源:界面新聞)
標(biāo)簽: