谷歌的一項(xiàng)研究成果引發(fā)了廣泛關(guān)注。在3月上旬,相關(guān)論文發(fā)表于Nature子刊,該研究深入探索了大模型與人腦語言處理機(jī)制之間的關(guān)聯(lián)。?
谷歌的科研團(tuán)隊(duì)開展了一項(xiàng)別具一格的研究,他們將真實(shí)對(duì)話場(chǎng)景中的人腦活動(dòng),與語音到文本的大型語言模型(LLM)內(nèi)部嵌入進(jìn)行了全面且深入的比較。令人意想不到的是,最終結(jié)果顯示兩者之間呈現(xiàn)出清晰的線性相關(guān)關(guān)系。?
在語言理解順序方面,人腦與大模型表現(xiàn)出了高度的一致性。通常先是接收語音信息,隨后才對(duì)詞義進(jìn)行理解。以日常對(duì)話為例,當(dāng)我們聽到對(duì)方說話時(shí),耳朵先捕捉到語音,緊接著大腦開始解析這些語音所代表的含義。大模型在處理語言信息時(shí),同樣遵循先處理語音,再深入理解詞義的順序。?
語言生成順序上亦是如此。無論是人腦還是大模型,都要先進(jìn)行計(jì)劃,組織好想要表達(dá)的內(nèi)容,接著發(fā)出聲音進(jìn)行發(fā)音,最后還能聽到自己所發(fā)出的聲音。比如我們?cè)诨卮饐栴}前,會(huì)在腦海中快速構(gòu)思答案,然后通過發(fā)聲器官將其表達(dá)出來,之后我們自己也能聽到說出的內(nèi)容。大模型在生成語言時(shí),也是先構(gòu)建內(nèi)容框架,再將其轉(zhuǎn)化為具體的語音輸出。?
而在上下文預(yù)測(cè)單詞這一復(fù)雜且關(guān)鍵的語言處理環(huán)節(jié),人腦與大模型同樣展現(xiàn)出驚人的一致性。當(dāng)我們處于一段對(duì)話中,會(huì)根據(jù)前文的語境來預(yù)測(cè)接下來可能出現(xiàn)的單詞。大模型也具備類似的能力,它能夠依據(jù)給定的上下文信息,較為準(zhǔn)確地預(yù)測(cè)出最符合語境的單詞。?
為了完成這項(xiàng)研究,谷歌團(tuán)隊(duì)付出了諸多努力。他們引入了一個(gè)統(tǒng)一的計(jì)算框架,這個(gè)框架巧妙地將聲學(xué)、語音和單詞級(jí)語言結(jié)構(gòu)緊密聯(lián)系起來,為研究人腦中日常對(duì)話的神經(jīng)基礎(chǔ)奠定了堅(jiān)實(shí)基礎(chǔ)。在具體操作過程中,研究人員一方面運(yùn)用皮層電圖,記錄下參與者在進(jìn)行開放式真實(shí)對(duì)話時(shí),語音生成和理解過程中的神經(jīng)信號(hào),累計(jì)時(shí)長高達(dá) 100小時(shí)。另一方面,從 Whisper 模型中精準(zhǔn)提取出低級(jí)聲學(xué)、中級(jí)語音和上下文單詞嵌入。隨后,他們開發(fā)出編碼模型,通過這個(gè)模型將這些嵌入詞以線性映射的方式,對(duì)應(yīng)到語音生成和理解過程中的大腦活動(dòng)上。令人驚喜的是,這一模型能夠精準(zhǔn)預(yù)測(cè)未用于訓(xùn)練模型的數(shù)小時(shí)新對(duì)話中,語言處理層次結(jié)構(gòu)各層次的神經(jīng)活動(dòng)。