伊人久久大香线蕉影院,中文字幕日韩精品一区二区三区 http://pinmang.cn 93913成立于2015年9月13日,是目前國內(nèi)最早且最具知名度和影響力的元宇宙&AI產(chǎn)業(yè)服務(wù)商,通過93913為用戶提供信息服務(wù)以及元宇宙&AI領(lǐng)域相關(guān)廠商提供整體品牌傳播、發(fā)布會、開發(fā)者大賽、連接商業(yè)項目以及FA投融資顧問等服務(wù)。 Sat, 05 Apr 2025 16:10:18 +0000 zh-CN hourly 1 https://wordpress.org/?v=6.6.2 DeepMind研發(fā)的DreamerV3在《我的世界》中取得重大突破,登上《Nature》 http://pinmang.cn/109724.html http://pinmang.cn/109724.html#respond Sat, 05 Apr 2025 16:01:01 +0000 http://pinmang.cn/?p=109724

谷歌DeepMind團隊近日在人工智能領(lǐng)域取得了一項重大突破,其研發(fā)的人工智能系統(tǒng)DreamerV3在《我的世界》游戲中成功實現(xiàn)了無需人類數(shù)據(jù)輔助,通過強化學(xué)習(xí)與自主構(gòu)建的“世界模型”,自主完成了鉆石收集任務(wù)。這一成果標(biāo)志著人工智能向通用人工智能(AGI)邁出了重要一步,相關(guān)研究論文已發(fā)表在《Nature》雜志上。?

《我的世界》作為一款全球知名的沙盒游戲,擁有龐大且復(fù)雜的開放式虛擬世界,為AI研究提供了極具挑戰(zhàn)性的環(huán)境。游戲中,玩家需要通過一系列復(fù)雜操作來獲取鉆石,而每一次游戲場景都是隨機生成的,包含各種地形地貌,如森林、山脈、沙漠和沼澤等,這對AI系統(tǒng)的適應(yīng)性和策略規(guī)劃能力提出了極高要求。此前,盡管包括OpenAI在內(nèi)的多個團隊都曾嘗試讓AI挑戰(zhàn)《我的世界》,但在沒有人類數(shù)據(jù)引導(dǎo)的情況下,AI難以完成收集鉆石這類復(fù)雜任務(wù)。?

DeepMind的DreamerV3系統(tǒng)則另辟蹊徑,它采用強化學(xué)習(xí)技術(shù),通過不斷在游戲中進行試錯來探索所有可能的行動。在這個過程中,DreamerV3識別出那些能夠帶來獎勵的動作,并不斷重復(fù)這些動作,摒棄無效動作。而其成功的核心在于構(gòu)建了“世界模型”。這個世界模型并非對游戲環(huán)境的精確復(fù)制,而是類似于人類的抽象思維,允許DreamerV3通過想象未來可能出現(xiàn)的情景來指導(dǎo)當(dāng)下的決策,賦予了人工智能系統(tǒng)“想象未來”的能力。?

研究團隊最初并非專為“鉆石測試”而開發(fā)DreamerV3,在完成算法構(gòu)建后,團隊意識到這是檢驗算法能否在不熟悉任務(wù)中 “開箱即用” 的絕佳方式。在實驗設(shè)置中,每當(dāng)DreamerV3 完成鉆石收集過程中的12個關(guān)鍵步驟之一,如制作木板、建造熔爐、開采鐵礦并鍛造鐵鎬等,就能獲得一個“+1”的獎勵。這些中間獎勵激勵DreamerV3選擇更有可能獲取鉆石的行動。為防止AI適應(yīng)特定游戲配置,研究團隊每30分鐘重置一次游戲,迫使DreamerV3學(xué)習(xí)通用規(guī)則。在這種設(shè)定下,DreamerV3經(jīng)過連續(xù)約九天的“游戲”,成功找到了至少一顆鉆石。相比之下,即使是經(jīng)驗豐富的人類 “高玩”,找到一顆鉆石也通常需要20-30分鐘,新手則耗時更久。?

DreamerV3算法由三個關(guān)鍵的神經(jīng)網(wǎng)絡(luò)組成:世界模型、評論家網(wǎng)絡(luò)和行動者網(wǎng)絡(luò)。世界模型通過自動編碼學(xué)習(xí)感官輸入的表示,并預(yù)測潛在動作的未來表示和獎勵,以此實現(xiàn)規(guī)劃;評論家網(wǎng)絡(luò)對世界模型預(yù)測的每個結(jié)果進行價值判斷,評估其對實現(xiàn)目標(biāo)的幫助程度;行動者網(wǎng)絡(luò)則依據(jù)評論家的判斷,選擇能達成最佳結(jié)果的行動。這三個網(wǎng)絡(luò)相互協(xié)作,在智能體與環(huán)境交互過程中,通過重放經(jīng)驗同時進行訓(xùn)練。訓(xùn)練過程中,世界模型的學(xué)習(xí)尤為關(guān)鍵,它需最小化預(yù)測損失、動態(tài)損失和表示損失,從而從感官輸入中提取有用信息,并準(zhǔn)確預(yù)測未來狀態(tài)和獎勵。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」
]]>
http://pinmang.cn/109724.html/feed 0