AI產物過度激增!研究發現「用AI內容訓練AI」會導致模型崩潰 錯誤不可回溯
AI(人工智慧)的時代已經來臨,在非營利組織 OpenAI 的聊天機器人 ChatGPT 開放使用 6 個月內,許多跨國頂尖企業已將 AI 相關技術導入工作中,藝術創作者也爭先恐後訓練深度學習模型。
本站曾報導 AI繪圖在動漫二創圈的爭議,遊戲公司也開始用 AI 開發新作,然而隨著越來越多人使用 AI 製作媒體內容,電腦作品也在網路上激增,且被後續的使用者拿來訓練自己的 AI。來自英國和加拿大的研究人員發現,這樣會產生「模型崩潰」的現象,成果公開在 arXiv 期刊網站,「我們發現在 AI 訓練過程,使用 AI 生成的內容來訓練模型,結果會導致不可逆轉的缺陷。」
研究人員聚焦「文字訓練文字」「圖像到圖像」兩類 AI 生成模型,得出結論:「若深度學習的資料來源是其他模型的生成內容,會導致訓練中的模型崩潰、進入退化的過程,隨著時間進展,訓練中的 AI 會忘記原初的基層資料設置……整個過程不可逆,即使就近乎理想的長期學習條件來看也是如此。」
簡單來說,長期下來,用 AI 產物訓練 AI,原本資料當中的錯誤成分會重複合併,導致深度學習模型進一步透過「錯誤的」方式感知現實,該論文的主要作者之一 Ilia Shumailov 表示,「我們驚訝地觀察到,模型崩潰發生的速度有多快,可以迅速忘記他們最初學習的大部分原始資料。」
該論文的另一位作者,劍橋大學與愛丁堡大學安全工程學系教授 Ross Anderson,在一篇討論該研究的部落格文章寫到,「就如同人類散佈在海洋中的塑膠垃圾,或是大氣中的二氧化碳,我們用『廢話』(blah)填滿網際網路,這使得那些透過網路抓取資料,訓練新模型的過程更加困難。」
他還提醒,這個現象會成為那些投入訓練 AI 的先行公司,或掌控大規模人機互動機會(如 ChatGPT)的企業的優勢,因為它們能掌控用來訓練或輸出的資料庫,「事實上,我們已經看到 AI 新創公司在 Internet Archive 尋找訓練資料庫。」
該論文研究者 Ilia Shumailov 表示,人們去感受及體驗世界所產生的原生內容,可能多少與現實世界有所差異(本質上的偏差),但 AI 更誇張,「電腦生成模型往往過度學習(overfit)流行資料(大宗的數據),時常誤解或扭曲較少的資料。」
他向外媒 VentureBeat 解釋,舉機器學習模型在 100 隻貓的圖庫進行訓練的案例,「其中 10 隻貓是藍毛,90 隻貓是黃毛,該模型意識到黃貓更普遍,但也理解成藍貓比實際上更黃,當被要求產出新內容時,結果就會提供一些綠貓來。」
「長時間下來,藍毛貓的原始特徵會在連續的訓練週期中逐漸消失,從藍色變成綠色,最後變成黃色。這種漸進的扭曲,和較為少數的數據特徵丟失,就是一種模型崩潰。為防止這種情況發生,重點是要確保少數群體在資料庫中的公平性與代表性,無論是在數量上,還是針對獨特特徵的準確描述。」
當 AI 模型生成的內容,最終污染了後續模型的訓練庫時,發生模型崩潰的情況,這聽起來滿合理的,但還會有更嚴重的影響,例如基於性別、種族或其他敏感屬性的歧視,AI 會逐步丟失之前學的到資料,根據它們強化的「信念」來曲解現實。
研究人員還發現,即使訓練模型的過程中,以「減少訓練週期的多次迭代」來避免這種情況,模型崩潰仍然會發生,因為 AI 開始產生錯誤反應,以避免資料頻繁訓練。
作為對策,該論文指出,「保留原始資料庫或人類生成資料的副本,並根據這些資料定期重新訓練,以避免與 AI 生成內容混淆。」或者,從頭開始用原始數據刷新 AI 的腦袋。
為防止 AI 模型崩潰,Shumailov 補充關鍵做法:保證 AI 訓練時準確描述出原始資料的特徵,在資料庫中區隔少數樣本並強調其代表性,「即使用 10% 的人類原生數據來訓練後面產出的模型(subsequent generations),模型崩潰仍然會發生,只是不會那麼快。」
模型 更多報導
猜你喜歡
同類好文
不否認描圖!日紳士繪師沉寂近兩個月再發聲明 承認「過度參考」某些作品
大海賊時代來臨?《航海王》尾田榮一郎將「ONE PIECE真相」沉入海底封印
Steam小品同樂《我們完蛋啦We're So Cooked》藏匿遺體別被任何人發現!
hololive 2026大拜拜展出成員日用品!大空昴早期直播筆電、天音彼方59.9kg握力器都陳列
《惡靈古堡:安魂曲》日版刪減幅度掀議 玩家抱怨大範圍塗黑影響體驗
全球限量50份!型月經典《月姬》體驗版磁碟片遭美國海關拆毀 收藏家哀痛發聲
《航海王》尋寶計畫真的開始了?粉絲推算座標已計畫包船打撈
初配信就中之人露出!日個人勢VT出道一週就和麥當勞合作
關服不下架!《Let It Die》將推出離線版DLC可繼承遊玩進度
不怕漏兵了!《英雄聯盟》26.5版本新增「吃兵輔助功能」將於非積分模式上線
Steam雙人合作《盲目上路》朋友開車你指揮 安全上路還是碰碰車?
高清無「馬」!祕魯辦《賽馬娘》Cosplay賽跑活動 由春烏菈菈Coser領跑奪冠
《英雄聯盟》希瓦娜到底會不會下蛋?負責人親回:法律和社群部門叫我不能說
《英雄聯盟》LPL新假賽風波?TES主教練爆料:打野Naiyou承認季後賽每一敗都在打假賽
強制PLAY!《靈境殺戮Black》獨創恥辱PVP系統 輸了直接變奴隸?
《失落星船:馬拉松》首日開盤!Steam 89%極好評、同上人數最高8.8萬人
玩家不買單?《失落星船:馬拉松》週末免費公測Steam版遊玩人數跌50%
實況主Asmongold與他共同創辦經紀公司Mythic Talent解除經紀關係
團結Band來啦!即日起《孤獨搖滾》主題Café用餐再送特典
肌肉魔法使!日本爸幫女兒製作《葬送的芙莉蓮》費倫法杖但長達200公分以上
撐不到2個月...《高嶺鐵衛 Highguard》宣布3月12日永久關閉伺服器
美國白宮使用《Pokémon Pokopia》風格字體宣傳 寶可夢公司回應:未授權使用
被盯上了?《塵白禁域》突宣布伺服器無限期維護
《GTA6》title ID曝光!玩家用漏洞加入自己「最近遊玩」紀錄
寶可夢數量突破1028隻!超越日本小學生必學1026個漢字
《兔兔祕密花園 2》Steam商店頁面公開!官方比較雙平台演出差異
百變怪佔領車廂!《Pokémon Pokopia》東京地下鐵包車廣告限時登場
實驗室訓練腦細胞玩《毀滅戰士》 已出現尋敵與射擊行為
保護員工!《FF14》團隊長期遭惡意網站貶低 SQUARE ENIX依法處理協議關站
《炎姬》Steam平台上市!台灣獨立工作室傾力打造3D彈幕動作遊戲
火熱排行
荒謬...玩家訂《33 號遠征隊》美術設定集 被海關懷疑是古代文物而慘遭扣留
實況主xQc護航hololive星街彗星演唱會:表演性比大多數真人Live還強
《異塵餘生76》團隊談日本玩家C.A.M.P創作 鬼斧神工驚豔官方
不否認描圖!日紳士繪師沉寂近兩個月再發聲明 承認「過度參考」某些作品
玩家在《星露谷物語》連睡1000年 醒來遍地隕石還靠蘑菇賺50萬
DLsite《Forestia》推Steam全齡版《Little Lilicia》 認真耕作與女角深度交流
hololive天音彼方遺珠企劃曝光 繪師公開天使本人委託「性轉成員」立繪
全球限量50份!型月經典《月姬》體驗版磁碟片遭美國海關拆毀 收藏家哀痛發聲
知名歌手tuki.首場演唱會登武道館!8503張門票完售創金氏世界紀錄
《崩壞:星穹鐵道》日本二創繪師談被官方抄襲:與米哈遊交涉中
大海賊時代來臨?《航海王》尾田榮一郎將「ONE PIECE真相」沉入海底封印
公視VT三期生「幽夜南栖」3/7初配信!台灣首艘幽靈船陪伴觀眾走過低潮
Steam小品同樂《我們完蛋啦We're So Cooked》藏匿遺體別被任何人發現!
hololive 2026大拜拜展出成員日用品!大空昴早期直播筆電、天音彼方59.9kg握力器都陳列
DD單推都適用!hololive粉絲自製「HoloCalendar」成員生日、紀念日通通不漏接
雙人冒險《Hamsteria》扮演倉鼠進退兩難就連轉彎都要合作!
個人勢VT鳳玲天天啟動新模型募資計畫!因原繪師醜聞損失300萬日圓
玩家向《星露谷物語》製作人求助!找回與逝世伴侶經營多年的存檔
太臭了吧?日網友發現「中國郵政」Logo轉90度出現「野獸先輩」
「露比醬」成絕響! 降幡愛將自AiScReam畢業 團體改組加入兩位新成員
《惡靈古堡:安魂曲》日版刪減幅度掀議 玩家抱怨大範圍塗黑影響體驗
《航海王》尋寶計畫真的開始了?粉絲推算座標已計畫包船打撈
我NTR我自己!紳士漫畫《尊嚴破壞》系列大玩「綠帽Play」 超級甜
藍點工作室即將關閉...回顧《惡魔靈魂 重製版》為什麼魂系狂粉也不推?
動畫《凡人修仙傳》揭第五季前導視覺圖!預計2026年第二季開播
初配信就中之人露出!日個人勢VT出道一週就和麥當勞合作
被負評轟炸?日電視台高層談細田守新作《永無止境的史嘉蕾》票房暴死原因
關服不下架!《Let It Die》將推出離線版DLC可繼承遊玩進度
不怕漏兵了!《英雄聯盟》26.5版本新增「吃兵輔助功能」將於非積分模式上線