
谷歌DeepMind團(tuán)隊(duì)近日在人工智能領(lǐng)域取得了一項(xiàng)重大突破,其研發(fā)的人工智能系統(tǒng)DreamerV3在《我的世界》游戲中成功實(shí)現(xiàn)了無(wú)需人類數(shù)據(jù)輔助,通過(guò)強(qiáng)化學(xué)習(xí)與自主構(gòu)建的“世界模型”,自主完成了鉆石收集任務(wù)。這一成果標(biāo)志著人工智能向通用人工智能(AGI)邁出了重要一步,相關(guān)研究論文已發(fā)表在《Nature》雜志上。?
《我的世界》作為一款全球知名的沙盒游戲,擁有龐大且復(fù)雜的開放式虛擬世界,為AI研究提供了極具挑戰(zhàn)性的環(huán)境。游戲中,玩家需要通過(guò)一系列復(fù)雜操作來(lái)獲取鉆石,而每一次游戲場(chǎng)景都是隨機(jī)生成的,包含各種地形地貌,如森林、山脈、沙漠和沼澤等,這對(duì)AI系統(tǒng)的適應(yīng)性和策略規(guī)劃能力提出了極高要求。此前,盡管包括OpenAI在內(nèi)的多個(gè)團(tuán)隊(duì)都曾嘗試讓AI挑戰(zhàn)《我的世界》,但在沒(méi)有人類數(shù)據(jù)引導(dǎo)的情況下,AI難以完成收集鉆石這類復(fù)雜任務(wù)。?
DeepMind的DreamerV3系統(tǒng)則另辟蹊徑,它采用強(qiáng)化學(xué)習(xí)技術(shù),通過(guò)不斷在游戲中進(jìn)行試錯(cuò)來(lái)探索所有可能的行動(dòng)。在這個(gè)過(guò)程中,DreamerV3識(shí)別出那些能夠帶來(lái)獎(jiǎng)勵(lì)的動(dòng)作,并不斷重復(fù)這些動(dòng)作,摒棄無(wú)效動(dòng)作。而其成功的核心在于構(gòu)建了“世界模型”。這個(gè)世界模型并非對(duì)游戲環(huán)境的精確復(fù)制,而是類似于人類的抽象思維,允許DreamerV3通過(guò)想象未來(lái)可能出現(xiàn)的情景來(lái)指導(dǎo)當(dāng)下的決策,賦予了人工智能系統(tǒng)“想象未來(lái)”的能力。?
研究團(tuán)隊(duì)最初并非專為“鉆石測(cè)試”而開發(fā)DreamerV3,在完成算法構(gòu)建后,團(tuán)隊(duì)意識(shí)到這是檢驗(yàn)算法能否在不熟悉任務(wù)中 “開箱即用” 的絕佳方式。在實(shí)驗(yàn)設(shè)置中,每當(dāng)DreamerV3 完成鉆石收集過(guò)程中的12個(gè)關(guān)鍵步驟之一,如制作木板、建造熔爐、開采鐵礦并鍛造鐵鎬等,就能獲得一個(gè)“+1”的獎(jiǎng)勵(lì)。這些中間獎(jiǎng)勵(lì)激勵(lì)DreamerV3選擇更有可能獲取鉆石的行動(dòng)。為防止AI適應(yīng)特定游戲配置,研究團(tuán)隊(duì)每30分鐘重置一次游戲,迫使DreamerV3學(xué)習(xí)通用規(guī)則。在這種設(shè)定下,DreamerV3經(jīng)過(guò)連續(xù)約九天的“游戲”,成功找到了至少一顆鉆石。相比之下,即使是經(jīng)驗(yàn)豐富的人類 “高玩”,找到一顆鉆石也通常需要20-30分鐘,新手則耗時(shí)更久。?
DreamerV3算法由三個(gè)關(guān)鍵的神經(jīng)網(wǎng)絡(luò)組成:世界模型、評(píng)論家網(wǎng)絡(luò)和行動(dòng)者網(wǎng)絡(luò)。世界模型通過(guò)自動(dòng)編碼學(xué)習(xí)感官輸入的表示,并預(yù)測(cè)潛在動(dòng)作的未來(lái)表示和獎(jiǎng)勵(lì),以此實(shí)現(xiàn)規(guī)劃;評(píng)論家網(wǎng)絡(luò)對(duì)世界模型預(yù)測(cè)的每個(gè)結(jié)果進(jìn)行價(jià)值判斷,評(píng)估其對(duì)實(shí)現(xiàn)目標(biāo)的幫助程度;行動(dòng)者網(wǎng)絡(luò)則依據(jù)評(píng)論家的判斷,選擇能達(dá)成最佳結(jié)果的行動(dòng)。這三個(gè)網(wǎng)絡(luò)相互協(xié)作,在智能體與環(huán)境交互過(guò)程中,通過(guò)重放經(jīng)驗(yàn)同時(shí)進(jìn)行訓(xùn)練。訓(xùn)練過(guò)程中,世界模型的學(xué)習(xí)尤為關(guān)鍵,它需最小化預(yù)測(cè)損失、動(dòng)態(tài)損失和表示損失,從而從感官輸入中提取有用信息,并準(zhǔn)確預(yù)測(cè)未來(lái)狀態(tài)和獎(jiǎng)勵(lì)。








