行業(yè)新聞

大模型“畫(huà)龍”，小數(shù)據(jù)“點(diǎn)睛” 企業(yè)加快智能化轉(zhuǎn)型

發(fā)布時(shí)間:2022-03-01 09:01:00 人氣:708 來(lái)源：中國(guó)安全防范產(chǎn)品行業(yè)協(xié)會(huì)

　　小數(shù)據(jù)、優(yōu)質(zhì)數(shù)據(jù)應(yīng)用有其前提，即需要在大的基礎(chǔ)模型（預(yù)訓(xùn)練模型）之上，通過(guò)小數(shù)據(jù)進(jìn)行模型的微調(diào)，使模型更加精準(zhǔn)地服務(wù)具體應(yīng)用場(chǎng)景。從這個(gè)角度來(lái)講，小數(shù)據(jù)將在未來(lái)基礎(chǔ)模型完成下游任務(wù)時(shí)，起到關(guān)鍵的作用。

　　如今大數(shù)據(jù)已經(jīng)成為人工智能的“標(biāo)配”。在訓(xùn)練人工智能模型的過(guò)程中，如果想讓其變得更加聰明，大量的、多樣性的數(shù)據(jù)必不可少。但近日，著名人工智能學(xué)者吳恩達(dá)在展望人工智能下一個(gè)10年的發(fā)展方向時(shí)，表達(dá)了不同的觀點(diǎn)。他認(rèn)為，小數(shù)據(jù)、優(yōu)質(zhì)數(shù)據(jù)的應(yīng)用或是未來(lái)趨勢(shì)。

　　中國(guó)科學(xué)院自動(dòng)化研究所研究員王金橋表示，小數(shù)據(jù)、優(yōu)質(zhì)數(shù)據(jù)應(yīng)用有其前提，即需要在大的基礎(chǔ)模型（預(yù)訓(xùn)練模型）之上，通過(guò)小數(shù)據(jù)進(jìn)行模型的微調(diào)，使模型更加精準(zhǔn)地服務(wù)具體應(yīng)用場(chǎng)景。從這個(gè)角度來(lái)講，小數(shù)據(jù)將在未來(lái)基礎(chǔ)模型完成下游任務(wù)時(shí)，起到關(guān)鍵的作用。

　　多數(shù)應(yīng)用場(chǎng)景難以獲取高質(zhì)量大數(shù)據(jù)

　　算法（模型）、算力和數(shù)據(jù)可以說(shuō)已經(jīng)成為推動(dòng)人工智能發(fā)展的三大要素，其中數(shù)據(jù)尤為重要。在眾多互聯(lián)消費(fèi)場(chǎng)景中，我們常常被精準(zhǔn)的人工智能推送“擊中”。通過(guò)對(duì)消費(fèi)者消費(fèi)習(xí)慣、購(gòu)物偏好的分析，平臺(tái)系統(tǒng)可以對(duì)消費(fèi)者的潛在需求作出判斷并加以引導(dǎo)，而這一切的基礎(chǔ)，是基于大量的、豐富的數(shù)據(jù)樣本。利用大數(shù)據(jù)，平臺(tái)構(gòu)建出了適用于該領(lǐng)域的專用模型，實(shí)現(xiàn)精準(zhǔn)推送。

　　這些體驗(yàn)或許是普通消費(fèi)者對(duì)于大數(shù)據(jù)和人工智能最直接的印象之一。吳恩達(dá)在采訪中也表示，在過(guò)去10年里，面向消費(fèi)者的企業(yè)由于擁有大量用戶群（有時(shí)甚至高達(dá)數(shù)十億），因此獲得了非常大的數(shù)據(jù)集使得人工智能可以開(kāi)展深度學(xué)習(xí)，并給企業(yè)帶來(lái)了不少經(jīng)濟(jì)效益。但他同時(shí)強(qiáng)調(diào)，這種法則并不適用于其他行業(yè)。其原因在于，并不是所有場(chǎng)景都能產(chǎn)生豐富的大數(shù)據(jù)樣本。

　　實(shí)際上，“在生活中，百分之八九十場(chǎng)景的問(wèn)題都屬于小樣本問(wèn)題?！蓖踅饦虮硎?，很多應(yīng)用場(chǎng)景中，由于訓(xùn)練樣本難以獲取，因此只有極少量數(shù)據(jù)，缺陷檢測(cè)就是其中的典型案例。缺陷檢測(cè)，即采用機(jī)器視覺(jué)技術(shù)等，對(duì)某種特定缺陷進(jìn)行檢測(cè)和識(shí)別。這種檢測(cè)在航天航空、鐵路交通、智能汽車(chē)等眾多領(lǐng)域都有應(yīng)用。由于在實(shí)際的生產(chǎn)生活中，存在瑕疵的產(chǎn)品總是少數(shù)，所以缺陷檢測(cè)的訓(xùn)練樣本數(shù)量很少。

　　而即使對(duì)于樣本豐富的場(chǎng)景，也存在訓(xùn)練數(shù)據(jù)標(biāo)注愈發(fā)困難的問(wèn)題。王金橋介紹，目前人工智能所使用的訓(xùn)練數(shù)據(jù)，還是以人工標(biāo)注為主，而在海量數(shù)據(jù)面前，人工標(biāo)注往往需要行業(yè)經(jīng)驗(yàn)，一般人難以對(duì)標(biāo)注區(qū)域進(jìn)行識(shí)別。此外，針對(duì)每個(gè)應(yīng)用需求都需要人工智能專家設(shè)計(jì)算法模型，模型越多，開(kāi)發(fā)成本也會(huì)持續(xù)增加。

　　吳恩達(dá)也表示，在消費(fèi)互聯(lián)網(wǎng)行業(yè)中，我們只需訓(xùn)練少數(shù)機(jī)器學(xué)習(xí)模型就能服務(wù)10億用戶。然而在制造業(yè)中，有1萬(wàn)家制造商就要搭建1萬(wàn)個(gè)定制模型。而且要做到這點(diǎn)往往需要大量的人工智能專家。

　　從目前的行業(yè)發(fā)展趨勢(shì)來(lái)看，基礎(chǔ)模型或許是解決上述問(wèn)題的一個(gè)方向。

　　以基礎(chǔ)模型為“基座”用小數(shù)據(jù)微調(diào)

　　“近些年，行業(yè)開(kāi)始重視研發(fā)基礎(chǔ)模型或者說(shuō)是通用型模型來(lái)解決上述問(wèn)題?！蓖踅饦蛘f(shuō)，先用大量數(shù)據(jù)預(yù)訓(xùn)練一個(gè)模型。這些模型在預(yù)訓(xùn)練中，見(jiàn)多識(shí)廣是首要任務(wù)。訓(xùn)練中，模型會(huì)見(jiàn)識(shí)到該領(lǐng)域各式各樣的數(shù)據(jù)，增長(zhǎng)見(jiàn)識(shí)，以應(yīng)對(duì)今后出現(xiàn)的各種情況。之后再在下游任務(wù)中利用具體的場(chǎng)景數(shù)據(jù)進(jìn)行微調(diào)。

　　如自然語(yǔ)言處理（NLP）領(lǐng)域的大模型，如果要利用它完成如對(duì)話、問(wèn)答等下游任務(wù)，只需要使用這個(gè)下游任務(wù)中數(shù)量很小的數(shù)據(jù)，在這個(gè)大模型之上進(jìn)行微調(diào)，就能達(dá)到不錯(cuò)的效果。一些研究成果也表明，只需要原來(lái)建立專屬模型5%―10%的數(shù)據(jù)樣本用于大模型的數(shù)據(jù)微調(diào)，就能得到和專屬模型一樣的精度。

　　“從大模型轉(zhuǎn)向小模型，實(shí)現(xiàn)一個(gè)模型做多個(gè)任務(wù)，可以說(shuō)是目前行業(yè)發(fā)展中的一個(gè)轉(zhuǎn)變?！蓖踅饦蛘f(shuō)，這樣不僅降低了開(kāi)發(fā)難度，還大大減少了開(kāi)發(fā)成本。以前，每個(gè)算法都需要一個(gè)深度學(xué)習(xí)專家去設(shè)計(jì)和訓(xùn)練，現(xiàn)在只需要在大模型之下進(jìn)行微調(diào)，模型的設(shè)計(jì)和架構(gòu)也變得相對(duì)簡(jiǎn)單。中小型企業(yè)只需要在大模型上，自己上傳數(shù)據(jù)就可以完成。

　　此外，利用這種方法，模型的誤報(bào)率也會(huì)減少?；A(chǔ)模型見(jiàn)過(guò)豐富多彩的數(shù)據(jù)和場(chǎng)景，在處理具體任務(wù)的時(shí)候就具備了海量知識(shí)儲(chǔ)備，有更充足的準(zhǔn)備去應(yīng)對(duì)具體的小場(chǎng)景應(yīng)用。

　　不過(guò)吳恩達(dá)在訪談中也表示，預(yù)訓(xùn)練只是要解決難題的一小部分，更大的難題是提供一個(gè)工具讓使用者能夠選擇正確的數(shù)據(jù)用于微調(diào)，并用一致的方式對(duì)數(shù)據(jù)進(jìn)行標(biāo)記。面對(duì)大數(shù)據(jù)集的應(yīng)用時(shí)，開(kāi)發(fā)者的通常反應(yīng)都是如果數(shù)據(jù)有噪音也沒(méi)關(guān)系，所有數(shù)據(jù)照單全收，算法會(huì)對(duì)其進(jìn)行平均。但是，如果研究人員能夠開(kāi)發(fā)出用來(lái)標(biāo)記出數(shù)據(jù)不一致地方的工具，為使用者提供一種非常有針對(duì)性的方法來(lái)提高數(shù)據(jù)質(zhì)量，那這將是獲得高性能系統(tǒng)的更有效的方法。

　　多模態(tài)或是大模型未來(lái)發(fā)展方向

　　基礎(chǔ)模型作為生產(chǎn)眾多小模型的“基座”，性能尤為重要。其認(rèn)知能力越接近人類，在此之上產(chǎn)生的小模型性能也將越優(yōu)異。

　　在探索外部環(huán)境的時(shí)候，人類具備視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等多種認(rèn)知手段，并通過(guò)語(yǔ)言對(duì)話等形式實(shí)現(xiàn)互動(dòng)交流。其中視覺(jué)得到的信息約占70%，聽(tīng)覺(jué)、觸覺(jué)等獲得的信息約占30%?！巴瑯樱沟么竽Ｐ偷男阅芨觾?yōu)秀，更趨近人類的認(rèn)知能力，就涉及到訓(xùn)練中的數(shù)據(jù)融合問(wèn)題。”王金橋指出，我們熟知的語(yǔ)言生成模型GPT-3，能夠生成流暢自然的文本，并完成問(wèn)答、翻譯、創(chuàng)作小說(shuō)等一系列NLP任務(wù)，甚至可以進(jìn)行簡(jiǎn)單的算術(shù)運(yùn)算。但其和外界交互的主要方式還是進(jìn)行文本交流，缺乏圖像、視頻等多模態(tài)融合。

　　每一種信息的來(lái)源或者形式，都可以稱為一種模態(tài)。如人有觸覺(jué)、聽(tīng)覺(jué)、視覺(jué)、嗅覺(jué)；信息的媒介有語(yǔ)音、視頻、文字等。人的認(rèn)知模型可以說(shuō)是一個(gè)多模態(tài)的集合。

　　要讓基礎(chǔ)模型的預(yù)訓(xùn)練更接近人類的認(rèn)知模型，也需要進(jìn)行多模態(tài)融合。即讓模型通過(guò)機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)處理和理解多源模態(tài)信息的能力，如圖像、視頻、音頻、語(yǔ)義之間的多模態(tài)學(xué)習(xí)。多模態(tài)預(yù)訓(xùn)練模型被廣泛認(rèn)為是從限定領(lǐng)域的弱人工智能邁向通用人工智能路徑的探索。

　　“這一兩年，大模型的數(shù)量呈現(xiàn)爆發(fā)式增長(zhǎng)，且有從單一模態(tài)模型轉(zhuǎn)向多模態(tài)模型的趨勢(shì)?！蓖踅饦蛘f(shuō)，具備了多模態(tài)能力的基礎(chǔ)模型，在具體應(yīng)用場(chǎng)景中健壯性更好，在異常和危險(xiǎn)情況下系統(tǒng)的生存能力更強(qiáng)，今后多模態(tài)基礎(chǔ)模型或?qū)⒊蔀槲磥?lái)基礎(chǔ)模型發(fā)展的一個(gè)重要方向。

上一篇:“智慧春運(yùn)”給旅客更美好的出行體驗(yàn) 下一篇:自動(dòng)駕駛巴士開(kāi)進(jìn)重慶兩江新區(qū)

返回列表相關(guān)新聞

在線留言

*您的姓名：

*您的手機(jī)：

公司名稱：

*電子郵箱：

*留言內(nèi)容：

大模型“畫(huà)龍”，小數(shù)據(jù)“點(diǎn)睛” 企業(yè)加快智能化轉(zhuǎn)型

山東省印發(fā)新學(xué)期方案加強(qiáng)校門(mén)管理實(shí)行相對(duì)封閉管理

山東印發(fā)學(xué)校食堂規(guī)范管理方案鼓勵(lì)實(shí)施"互聯(lián)網(wǎng)＋明廚亮灶"

廣東省印發(fā)通知要求開(kāi)學(xué)后嚴(yán)而有度把好校門(mén)關(guān)

國(guó)家五部門(mén)印發(fā)《深化智慧城市發(fā)展推進(jìn)全域數(shù)字化轉(zhuǎn)型行動(dòng)計(jì)劃》

《中國(guó)生態(tài)警務(wù)發(fā)展研究報(bào)告》發(fā)布

《山東省低空信息基礎(chǔ)設(shè)施專項(xiàng)規(guī)劃》印發(fā)

在線留言

聯(lián)系方式

二維碼

大模型“畫(huà)龍”，小數(shù)據(jù)“點(diǎn)睛” 企業(yè)加快智能化轉(zhuǎn)型

山東省印發(fā)新學(xué)期方案 加強(qiáng)校門(mén)管理 實(shí)行相對(duì)封閉管理

山東印發(fā)學(xué)校食堂規(guī)范管理方案 鼓勵(lì)實(shí)施"互聯(lián)網(wǎng)＋明廚亮灶"

廣東省印發(fā)通知 要求開(kāi)學(xué)后嚴(yán)而有度把好校門(mén)關(guān)

國(guó)家五部門(mén)印發(fā)《深化智慧城市發(fā)展推進(jìn)全域數(shù)字化轉(zhuǎn)型行動(dòng)計(jì)劃》

《中國(guó)生態(tài)警務(wù)發(fā)展研究報(bào)告》發(fā)布

《山東省低空信息基礎(chǔ)設(shè)施專項(xiàng)規(guī)劃》印發(fā)

在線留言

聯(lián)系方式

二維碼

山東省印發(fā)新學(xué)期方案加強(qiáng)校門(mén)管理實(shí)行相對(duì)封閉管理

山東印發(fā)學(xué)校食堂規(guī)范管理方案鼓勵(lì)實(shí)施"互聯(lián)網(wǎng)＋明廚亮灶"

廣東省印發(fā)通知要求開(kāi)學(xué)后嚴(yán)而有度把好校門(mén)關(guān)