OpenAI訓練電腦看影片玩《Minecraft》 做鑽石鎬的速度竟比人類還快
微軟旗下 Mojang Studios 開發的工藝沙盒遊戲《Minecraft》,以幾乎沒有邊界限制的多生態域世界,讓玩家隨意與環境方塊互動、創作各種事物,2011 年發售持續更新各種內容,至今仍受到大家喜愛,但如今就連 AI(人工智慧)都學會在遊戲中建設自己的家園了。
OpenAI 是一個非營利的人工智慧研究組織,由SpaceX 暨特斯拉執行長伊隆·馬斯克(Elon Musk)於 2015 年創立,近日他們在官方 Twitter 上透露,在給 AI 看了約 7 萬小時(換算約 8 年)的 YouTube 影片後,AI 即能上手《Minecraft》。
We trained a neural network to competently play Minecraft by pre-training on a large unlabeled video dataset of human Minecraft play and a small amount of labeled contractor data. https://t.co/a2pyBqvLvg pic.twitter.com/XbqtwQSTwU
— OpenAI (@OpenAI) June 23, 2022
另根據記錄在官方部落格的訓練過程,OpenAI 採用了一種叫影像預訓練(Video PreTraining: VPT)的技術,來教導 AI 遊玩《Minecraft》,電腦要學習的不只是影片的內容,還包括對應的鍵盤及滑鼠操作。
接著他們訓練一個逆動力模組(inverse dynamics model)去預測影片中的每一個操作會造成什麼結果,然後讓 AI 根據資料建構一個基礎模型,並微調及學習新的動作。
最終,這個模型在看了上萬小時的影片後,學會影片中的動作,如砍樹、用木材製作工作檯。這當然不是全部,模型也能做到像游泳、打獵、進食等較困難的操作,甚至還能做到「跳疊」利用跳躍的瞬間把方塊快速放置在腳下到達高處。
其中砍樹、收集原木、將原木製作成木板,然後將木板製作成工作台的過程,AI 只花約 48 秒;這個過程需要一個精通《Minecraft》的人類大約 50 秒或 1,000 個連續的遊戲動作。
AI 的能力也會隨著看影片的時間加長而增長,如製作能力的提升,從木頭、石頭發展到挖掘鑽石製作工具,就連建房子、搜索村莊也可以。
研究人員為了激發 AI「強化學習」,會在成功完成困難的挑戰時給予獎勵,以促成超人類的遊戲表現,比如做出鑽石鎬,這是首度有電腦在《Minecraft》做出如此創舉,在 10 分鐘的遊玩過程中有 2.5% 機率會這麼做,而人類必須花 20分鐘、24,000 次才能做到。
玩遊戲已經不是人類的特權了。不僅是像《Minecraft》這樣的沙盒遊戲,也許未來我們還會看到更多 AI 遊戲應用,比如 2018 年 OpenAI 被訓練來對抗《Dota 2》並打爆職業玩家,抑或《Ready or Not》讓 AI 學會上廁所、欣賞畫作跟抽菸。
參考資料:ITmedia