
谷歌的一項研究成果引發(fā)了廣泛關(guān)注。在3月上旬,相關(guān)論文發(fā)表于Nature子刊,該研究深入探索了大模型與人腦語言處理機制之間的關(guān)聯(lián)。?
谷歌的科研團隊開展了一項別具一格的研究,他們將真實對話場景中的人腦活動,與語音到文本的大型語言模型(LLM)內(nèi)部嵌入進(jìn)行了全面且深入的比較。令人意想不到的是,最終結(jié)果顯示兩者之間呈現(xiàn)出清晰的線性相關(guān)關(guān)系。?
在語言理解順序方面,人腦與大模型表現(xiàn)出了高度的一致性。通常先是接收語音信息,隨后才對詞義進(jìn)行理解。以日常對話為例,當(dāng)我們聽到對方說話時,耳朵先捕捉到語音,緊接著大腦開始解析這些語音所代表的含義。大模型在處理語言信息時,同樣遵循先處理語音,再深入理解詞義的順序。?
語言生成順序上亦是如此。無論是人腦還是大模型,都要先進(jìn)行計劃,組織好想要表達(dá)的內(nèi)容,接著發(fā)出聲音進(jìn)行發(fā)音,最后還能聽到自己所發(fā)出的聲音。比如我們在回答問題前,會在腦海中快速構(gòu)思答案,然后通過發(fā)聲器官將其表達(dá)出來,之后我們自己也能聽到說出的內(nèi)容。大模型在生成語言時,也是先構(gòu)建內(nèi)容框架,再將其轉(zhuǎn)化為具體的語音輸出。?
而在上下文預(yù)測單詞這一復(fù)雜且關(guān)鍵的語言處理環(huán)節(jié),人腦與大模型同樣展現(xiàn)出驚人的一致性。當(dāng)我們處于一段對話中,會根據(jù)前文的語境來預(yù)測接下來可能出現(xiàn)的單詞。大模型也具備類似的能力,它能夠依據(jù)給定的上下文信息,較為準(zhǔn)確地預(yù)測出最符合語境的單詞。?
為了完成這項研究,谷歌團隊付出了諸多努力。他們引入了一個統(tǒng)一的計算框架,這個框架巧妙地將聲學(xué)、語音和單詞級語言結(jié)構(gòu)緊密聯(lián)系起來,為研究人腦中日常對話的神經(jīng)基礎(chǔ)奠定了堅實基礎(chǔ)。在具體操作過程中,研究人員一方面運用皮層電圖,記錄下參與者在進(jìn)行開放式真實對話時,語音生成和理解過程中的神經(jīng)信號,累計時長高達(dá) 100小時。另一方面,從 Whisper 模型中精準(zhǔn)提取出低級聲學(xué)、中級語音和上下文單詞嵌入。隨后,他們開發(fā)出編碼模型,通過這個模型將這些嵌入詞以線性映射的方式,對應(yīng)到語音生成和理解過程中的大腦活動上。令人驚喜的是,這一模型能夠精準(zhǔn)預(yù)測未用于訓(xùn)練模型的數(shù)小時新對話中,語言處理層次結(jié)構(gòu)各層次的神經(jīng)活動。








