AI產物過度激增!研究發現「用AI內容訓練AI」會導致模型崩潰 錯誤不可回溯
AI(人工智慧)的時代已經來臨,在非營利組織 OpenAI 的聊天機器人 ChatGPT 開放使用 6 個月內,許多跨國頂尖企業已將 AI 相關技術導入工作中,藝術創作者也爭先恐後訓練深度學習模型。
本站曾報導 AI繪圖在動漫二創圈的爭議,遊戲公司也開始用 AI 開發新作,然而隨著越來越多人使用 AI 製作媒體內容,電腦作品也在網路上激增,且被後續的使用者拿來訓練自己的 AI。來自英國和加拿大的研究人員發現,這樣會產生「模型崩潰」的現象,成果公開在 arXiv 期刊網站,「我們發現在 AI 訓練過程,使用 AI 生成的內容來訓練模型,結果會導致不可逆轉的缺陷。」
研究人員聚焦「文字訓練文字」「圖像到圖像」兩類 AI 生成模型,得出結論:「若深度學習的資料來源是其他模型的生成內容,會導致訓練中的模型崩潰、進入退化的過程,隨著時間進展,訓練中的 AI 會忘記原初的基層資料設置……整個過程不可逆,即使就近乎理想的長期學習條件來看也是如此。」
簡單來說,長期下來,用 AI 產物訓練 AI,原本資料當中的錯誤成分會重複合併,導致深度學習模型進一步透過「錯誤的」方式感知現實,該論文的主要作者之一 Ilia Shumailov 表示,「我們驚訝地觀察到,模型崩潰發生的速度有多快,可以迅速忘記他們最初學習的大部分原始資料。」
該論文的另一位作者,劍橋大學與愛丁堡大學安全工程學系教授 Ross Anderson,在一篇討論該研究的部落格文章寫到,「就如同人類散佈在海洋中的塑膠垃圾,或是大氣中的二氧化碳,我們用『廢話』(blah)填滿網際網路,這使得那些透過網路抓取資料,訓練新模型的過程更加困難。」
他還提醒,這個現象會成為那些投入訓練 AI 的先行公司,或掌控大規模人機互動機會(如 ChatGPT)的企業的優勢,因為它們能掌控用來訓練或輸出的資料庫,「事實上,我們已經看到 AI 新創公司在 Internet Archive 尋找訓練資料庫。」
該論文研究者 Ilia Shumailov 表示,人們去感受及體驗世界所產生的原生內容,可能多少與現實世界有所差異(本質上的偏差),但 AI 更誇張,「電腦生成模型往往過度學習(overfit)流行資料(大宗的數據),時常誤解或扭曲較少的資料。」
他向外媒 VentureBeat 解釋,舉機器學習模型在 100 隻貓的圖庫進行訓練的案例,「其中 10 隻貓是藍毛,90 隻貓是黃毛,該模型意識到黃貓更普遍,但也理解成藍貓比實際上更黃,當被要求產出新內容時,結果就會提供一些綠貓來。」
「長時間下來,藍毛貓的原始特徵會在連續的訓練週期中逐漸消失,從藍色變成綠色,最後變成黃色。這種漸進的扭曲,和較為少數的數據特徵丟失,就是一種模型崩潰。為防止這種情況發生,重點是要確保少數群體在資料庫中的公平性與代表性,無論是在數量上,還是針對獨特特徵的準確描述。」
當 AI 模型生成的內容,最終污染了後續模型的訓練庫時,發生模型崩潰的情況,這聽起來滿合理的,但還會有更嚴重的影響,例如基於性別、種族或其他敏感屬性的歧視,AI 會逐步丟失之前學的到資料,根據它們強化的「信念」來曲解現實。
研究人員還發現,即使訓練模型的過程中,以「減少訓練週期的多次迭代」來避免這種情況,模型崩潰仍然會發生,因為 AI 開始產生錯誤反應,以避免資料頻繁訓練。
作為對策,該論文指出,「保留原始資料庫或人類生成資料的副本,並根據這些資料定期重新訓練,以避免與 AI 生成內容混淆。」或者,從頭開始用原始數據刷新 AI 的腦袋。
為防止 AI 模型崩潰,Shumailov 補充關鍵做法:保證 AI 訓練時準確描述出原始資料的特徵,在資料庫中區隔少數樣本並強調其代表性,「即使用 10% 的人類原生數據來訓練後面產出的模型(subsequent generations),模型崩潰仍然會發生,只是不會那麼快。」
模型 更多報導
猜你喜歡
同類好文
《異塵餘生76》團隊談日本玩家C.A.M.P創作 鬼斧神工驚豔官方
玩家在《星露谷物語》連睡1000年 醒來遍地隕石還靠蘑菇賺50萬
荒謬...玩家訂《33 號遠征隊》美術設定集 被海關懷疑是古代文物而慘遭扣留
雙人冒險《Hamsteria》扮演倉鼠進退兩難就連轉彎都要合作!
「露比醬」成絕響! 降幡愛將自AiScReam畢業 團體改組加入兩位新成員
太臭了吧?日網友發現「中國郵政」Logo轉90度出現「野獸先輩」
多人派對《災難公關+》正式推出!三觀炸裂、毫無底線的迷因造句大會
青桐VT栗駒小丸獲得2D模型!「降維升級」表情捕捉更細緻
被負評轟炸?日電視台高層談細田守新作《永無止境的史嘉蕾》票房暴死原因
《崩壞:星穹鐵道》日本二創繪師談被官方抄襲:與米哈遊交涉中
史詩級瘦身!玩家把《GTA5》容量壓縮98% 剩2.5GB竟還能正常運作
DLsite《Forestia》推Steam全齡版《Little Lilicia》 認真耕作與女角深度交流
Steam近代JRPG《33號遠征隊》x《暗喻幻想》64折!雙方製作人讚嘆彼此
知名歌手tuki.首場演唱會登武道館!8503張門票完售創金氏世界紀錄
動畫《凡人修仙傳》揭第五季前導視覺圖!預計2026年第二季開播
小島秀夫曾考慮開發《潛龍諜影》射擊遊戲:與重生工作室創辦人討論過
Steam魔法6人合作遊戲《YAPYAP》語音詠唱咒語破壞一切!支援中文語音
敲碗多年甄成真!《傳說對決》聯動《甄嬛傳》推刀鋒寶貝「溫柔刀」造型
米哈遊跨國提告《原神》、《崩鐵》知名洩密者「妮可少女」稱他煽動玩家違反保密協議
《高嶺鐵衛》前美術回顧TGA 坦言媒體誤傳導致「未上市先被判死刑」
hololive天音彼方遺珠企劃曝光 繪師公開天使本人委託「性轉成員」立繪
《仁王3》上市半個月賣破100萬套!成為系列銷售最速作品
Steam超混亂大亂鬥高爾夫《Super Battle Golf》打球打人我全都要!
學妹來了!春魚創意公開神秘網站 解開密碼一窺新團體「Para≠dox」
超噁心...國外詭異網站紀錄VTuber生理期 女V比對後驚覺準到發毛
個人勢VT鳳玲天天啟動新模型募資計畫!因原繪師醜聞損失300萬日圓
迷因「菲比拉電線」是什麼?《明日方舟:終末地》梗圖竟出自《鳴潮》
押井守超愛《異塵餘生4》玩1萬小時以上!《PUBG》玩250小時一吃雞就退坑
變西洋棋遊戲?Duolingo西洋棋課程已開放「真人對弈」
《Among Us》再度聯動《逆轉裁判》 成步堂造型3/18前免費登場
火熱排行
日繪師二創圖被《崩壞:星穹鐵道》官方抄襲!本人吐嘈「連細節都一模一樣」
荒謬...玩家訂《33 號遠征隊》美術設定集 被海關懷疑是古代文物而慘遭扣留
中國《原神》玩家海燈節活動玩到「帳號畢業」!網笑:死得不冤
中國小廠推出「盜版FGO」!連《崩壞:星穹鐵道》聯動《Fate》內容也一併抄襲
迷因「菲比拉電線」是什麼?《明日方舟:終末地》梗圖竟出自《鳴潮》
太糞了...日本劣質遊戲《香港2097》被Steam、DLsite等平台拒絕上架
官方致敬?《葬送的芙莉蓮》動畫重現「仰頭的芙莉蓮」迷因!
《異塵餘生76》團隊談日本玩家C.A.M.P創作 鬼斧神工驚豔官方
VSPO銀城サイネ畫160張圖做動畫嘆未被採用 觀眾看完傻眼:營運英明
神人?美國肥宅想要「以女朋友換一台PS5」遭店員拒絕 卻發生案外案
老了...台V與《英雄聯盟》S2世界冠軍Bebe一起玩 竟問「TPA是餐廳嗎?」
DLsite《Forestia》推Steam全齡版《Little Lilicia》 認真耕作與女角深度交流
玩家在《星露谷物語》連睡1000年 醒來遍地隕石還靠蘑菇賺50萬
中國手遊囂張抄襲《FGO》不到一周就陣亡...B站影片遭全數下架
hololive天音彼方遺珠企劃曝光 繪師公開天使本人委託「性轉成員」立繪
知名歌手tuki.首場演唱會登武道館!8503張門票完售創金氏世界紀錄
Steam懷舊步行模擬器《千禧夢》夢迴西元2000年熟悉又陌生的每個角落
《崩壞:星穹鐵道》日本二創繪師談被官方抄襲:與米哈遊交涉中
故意射歪!《惡靈古堡9》里昂在任天堂直面會「槍法超差」其實是為了闔家觀賞
國產3D動作遊戲《炎姬》歷時七年打磨即將問世 聲優陣容...真的很豪華
離譜...Netflix《葬送的芙莉蓮》字幕大出包 費倫被翻成「蕨類植物」網罵爆
太佛心...創作者推出表情符號自製軟體《EmoteLab》 成品可用於商業用途
太臭了吧?日網友發現「中國郵政」Logo轉90度出現「野獸先輩」
Steam魔法6人合作遊戲《YAPYAP》語音詠唱咒語破壞一切!支援中文語音
個人勢VT鳳玲天天啟動新模型募資計畫!因原繪師醜聞損失300萬日圓
拉麵店聯動《咒術迴戰》推出「宿儺的手指叉燒」!一次吃十根應該沒事吧
女子爆衣足球新作《Fantasia明日翔》交換隊服意義不明但別多管閒事
美35歲男假扮ICE探員偷PlayStation主機 被17歲少年一拳KO
超噁心...國外詭異網站紀錄VTuber生理期 女V比對後驚覺準到發毛