
從機器人技術(shù)到醫(yī)學(xué)再到政治學(xué),各個領(lǐng)域都在嘗試訓(xùn)練人工智能系統(tǒng)做出各種有意義的決策。例如,使用人工智能系統(tǒng)智能控制擁堵城市的交通可以幫助駕車者更快到達目的地,同時提高安全性或可持續(xù)性。
強化學(xué)習(xí)模型是AI決策系統(tǒng)的基礎(chǔ),但在面對其所訓(xùn)練任務(wù)的微小變化時,AI決定可能會失敗。以交通為例,模型可能難以控制一組具有不同速度限制、車道數(shù)量或交通模式的交叉路口。
為了提高強化學(xué)習(xí)模型對于具有多變性的復(fù)雜任務(wù)的可靠性,麻省理工學(xué)院的研究人員引入了一種更有效的算法來訓(xùn)練。
該算法策略性選擇最佳任務(wù)來訓(xùn)練AI代理,以便能夠有效執(zhí)行相關(guān)任務(wù)集合中的所有任務(wù)。在交通信號控制的情況下,每個任務(wù)可能是包含城市所有交叉路口任務(wù)空間中的一個交叉路口。
通過關(guān)注對算法整體有效性貢獻最大的較少數(shù)量的交叉點,該方法可最大限度提高性能,同時保持較低的訓(xùn)練成本。
研究人員發(fā)現(xiàn),在一系列模擬任務(wù)中,該技術(shù)比標準方法效率高出5到50倍。效率的提高有助于算法以更快的方式學(xué)習(xí)更好的解決方案,最終提高AI代理的性能。
為了訓(xùn)練一種算法來控制城市中許多路口的交通信號燈,工程師通常會在兩種主要方法之間做出選擇??蔀槊總€路口單獨訓(xùn)練一種算法,只使用該路口的數(shù)據(jù),或者使用來自所有路口的數(shù)據(jù)訓(xùn)練一個更大的算法,然后將其應(yīng)用于每個路口。








