AI產物過度激增!研究發現「用AI內容訓練AI」會導致模型崩潰 錯誤不可回溯
AI(人工智慧)的時代已經來臨,在非營利組織 OpenAI 的聊天機器人 ChatGPT 開放使用 6 個月內,許多跨國頂尖企業已將 AI 相關技術導入工作中,藝術創作者也爭先恐後訓練深度學習模型。
本站曾報導 AI繪圖在動漫二創圈的爭議,遊戲公司也開始用 AI 開發新作,然而隨著越來越多人使用 AI 製作媒體內容,電腦作品也在網路上激增,且被後續的使用者拿來訓練自己的 AI。來自英國和加拿大的研究人員發現,這樣會產生「模型崩潰」的現象,成果公開在 arXiv 期刊網站,「我們發現在 AI 訓練過程,使用 AI 生成的內容來訓練模型,結果會導致不可逆轉的缺陷。」
研究人員聚焦「文字訓練文字」「圖像到圖像」兩類 AI 生成模型,得出結論:「若深度學習的資料來源是其他模型的生成內容,會導致訓練中的模型崩潰、進入退化的過程,隨著時間進展,訓練中的 AI 會忘記原初的基層資料設置……整個過程不可逆,即使就近乎理想的長期學習條件來看也是如此。」
簡單來說,長期下來,用 AI 產物訓練 AI,原本資料當中的錯誤成分會重複合併,導致深度學習模型進一步透過「錯誤的」方式感知現實,該論文的主要作者之一 Ilia Shumailov 表示,「我們驚訝地觀察到,模型崩潰發生的速度有多快,可以迅速忘記他們最初學習的大部分原始資料。」
該論文的另一位作者,劍橋大學與愛丁堡大學安全工程學系教授 Ross Anderson,在一篇討論該研究的部落格文章寫到,「就如同人類散佈在海洋中的塑膠垃圾,或是大氣中的二氧化碳,我們用『廢話』(blah)填滿網際網路,這使得那些透過網路抓取資料,訓練新模型的過程更加困難。」
他還提醒,這個現象會成為那些投入訓練 AI 的先行公司,或掌控大規模人機互動機會(如 ChatGPT)的企業的優勢,因為它們能掌控用來訓練或輸出的資料庫,「事實上,我們已經看到 AI 新創公司在 Internet Archive 尋找訓練資料庫。」
該論文研究者 Ilia Shumailov 表示,人們去感受及體驗世界所產生的原生內容,可能多少與現實世界有所差異(本質上的偏差),但 AI 更誇張,「電腦生成模型往往過度學習(overfit)流行資料(大宗的數據),時常誤解或扭曲較少的資料。」
他向外媒 VentureBeat 解釋,舉機器學習模型在 100 隻貓的圖庫進行訓練的案例,「其中 10 隻貓是藍毛,90 隻貓是黃毛,該模型意識到黃貓更普遍,但也理解成藍貓比實際上更黃,當被要求產出新內容時,結果就會提供一些綠貓來。」
「長時間下來,藍毛貓的原始特徵會在連續的訓練週期中逐漸消失,從藍色變成綠色,最後變成黃色。這種漸進的扭曲,和較為少數的數據特徵丟失,就是一種模型崩潰。為防止這種情況發生,重點是要確保少數群體在資料庫中的公平性與代表性,無論是在數量上,還是針對獨特特徵的準確描述。」
當 AI 模型生成的內容,最終污染了後續模型的訓練庫時,發生模型崩潰的情況,這聽起來滿合理的,但還會有更嚴重的影響,例如基於性別、種族或其他敏感屬性的歧視,AI 會逐步丟失之前學的到資料,根據它們強化的「信念」來曲解現實。
研究人員還發現,即使訓練模型的過程中,以「減少訓練週期的多次迭代」來避免這種情況,模型崩潰仍然會發生,因為 AI 開始產生錯誤反應,以避免資料頻繁訓練。
作為對策,該論文指出,「保留原始資料庫或人類生成資料的副本,並根據這些資料定期重新訓練,以避免與 AI 生成內容混淆。」或者,從頭開始用原始數據刷新 AI 的腦袋。
為防止 AI 模型崩潰,Shumailov 補充關鍵做法:保證 AI 訓練時準確描述出原始資料的特徵,在資料庫中區隔少數樣本並強調其代表性,「即使用 10% 的人類原生數據來訓練後面產出的模型(subsequent generations),模型崩潰仍然會發生,只是不會那麼快。」
模型 更多報導
猜你喜歡
同類好文
迷因「菲比拉電線」是什麼?《明日方舟:終末地》梗圖竟出自《鳴潮》
中國小廠推出「盜版FGO」!連《崩壞:星穹鐵道》聯動《Fate》內容也一併抄襲
官方致敬?《葬送的芙莉蓮》動畫重現「仰頭的芙莉蓮」迷因!
VSPO銀城サイネ畫160張圖做動畫嘆未被採用 觀眾看完傻眼:營運英明
女子爆衣足球新作《Fantasia明日翔》交換隊服意義不明但別多管閒事
解放雙手!台V幽李鈴添「3D手」配合Live2D效果卓越
《真‧三國無雙 起源》DLC新增貂蟬、朱和同行!製作人:我本來只想加大叔
美35歲男假扮ICE探員偷PlayStation主機 被17歲少年一拳KO
Coser靠二創大賺?Enako出面澄清並重申收入來源
回來了!北美犽宿實況主「Moe」重返《英雄聯盟》S16打上韓服菁英
Ubisoft近五年股價跌95%以上...宣布重組後再雪崩39%刷單日新高
VTuber外型遭質疑照抄彩虹社設計 負責繪師抄襲劣跡再被翻出
超噁心...國外詭異網站紀錄VTuber生理期 女V比對後驚覺準到發毛
任天堂「閒聊花花」3/12發售 主打自言自語、報時還可能出錯?
LOL/不是AI!韓服勝率93%帳號身份是LCK選手 稱「爬分99%靠運氣」
實況主Asmongold準備提告造謠網友!澄清「目標是勝訴而非刷流量」
Coser扮《葬送的芙莉蓮》費倫嘆「很難還原」但被知名紳士繪師畫成圖
粉絲都大了...《庫洛魔法使》推魔杖造型「肩部按摩棒」解除肩頸封印
VR實況主穿觸覺回饋裝玩《星露谷物語》 每下操作都被電擊瘋狂哀號
不是DEI導致倒閉?日本前Ubisoft員工稱公司患上「大企業通病」
出大包!《明日方舟:終末地》上市首日傳「PayPal隨機盜刷」嚴重災情
父母不管?《魔法公主》IMAX特別場掀孩童吵鬧 影城方迅速祭出補償
TikTok「面癱哥」公司以9.75億美金被收購 預計打造其AI分身開銷售直播
LOL/韓服超離譜「零CD贖罪神石易大師」肆虐鑽石場!全輔助裝17分鐘26殺
台灣VT工作室唐突解散?旗下有藝人出道兩天就轉個人勢
小六腐女讀者的黑歷史滿十週年 《齊木楠雄》作者澄清自己最後沒回信
評審玩到哭!IGA 2026得獎名單出爐:《折言》奪最佳遊戲、台灣獲兩獎項
GOG總監5年後首度回應《還願》下架事件:低估地緣政治的複雜性
《勝利女神:妮姬》吉祥物Doro模型 結合衍伸迷因「歐潤吉」
VTuber三毛貓「作家」出道!原創小說連載開始、漫畫化計畫啟動
火熱排行
AI生成日本異世界輕小說獲得大賞!被抓包後遭撤銷出版、漫畫化資格
台文館「阿龍」抄襲中國繪師...委外廠商蹦世界違反著作權法遭起訴
迷因「菲比拉電線」是什麼?《明日方舟:終末地》梗圖竟出自《鳴潮》
推特Grok「比基尼改圖」騷擾亂象頻傳!Coser怒斥:平台助長了這種行為
日酸民畫「冷炸雞事件」諷兔田佩克拉外出約會 遭COVER求償150萬日圓
中國小廠推出「盜版FGO」!連《崩壞:星穹鐵道》聯動《Fate》內容也一併抄襲
火力全開!動畫《輝夜姬想讓人告白》片尾白銀圭原畫張數突破天際
Neuro前繪師Anny無辜被罵拖延新衣裝 澄清從未被委託:不在意的是Vedal
曾經的Xbox神主牌!《最後一戰》新作「戰役進化」預計2026登陸PS5平台
官方致敬?《葬送的芙莉蓮》動畫重現「仰頭的芙莉蓮」迷因!
VSPO銀城サイネ畫160張圖做動畫嘆未被採用 觀眾看完傻眼:營運英明
Coser扮《葬送的芙莉蓮》費倫嘆「很難還原」但被知名紳士繪師畫成圖
Steam遊戲女角爬梯子出現「四足跪姿」掀議!意外形成紳士良好互動
Steam年初七款免費獨立遊戲整理!多人同樂、單人模擬器小品嚐鮮
玩家打造《動物森友會》「成人島」存活5年 近期才被官方刪除
日本推特掀「紳士版」節奏挑戰!擦邊帳號集體吟聲響應
VTuber花數萬買斷Live2D模型 竟被以300元價格當公用模型盜賣
羅傑、峰哥一起被告!網友被Threads反串帳號激怒 卻決定提告羅傑本人
台V真理果澄清三視圖商用質疑 繪師媽媽力挺:是很好的甲方
Coser照片遭用grok改少布料?不雅留言多到申訴不完
LOL/韓服超離譜「零CD贖罪神石易大師」肆虐鑽石場!全輔助裝17分鐘26殺
LOL/上路玩家要不到尾選「秒鎖悠咪」揚言開戳!還在選角就吃到系統懲罰
《英雄聯盟》前PCS戰隊負責人詐騙熟女800萬 前選手被列共犯起訴
《真‧三國無雙 起源》DLC新增貂蟬、朱和同行!製作人:我本來只想加大叔
Ubisoft員工稱《刺客教條:暗影者》為「4A級遊戲」!遭嘲諷後迅速刪除
推特比基尼亂象落幕?Grok禁止以「標註」功能修改真人照片
LOL/不是AI!韓服勝率93%帳號身份是LCK選手 稱「爬分99%靠運氣」
台灣VT工作室唐突解散?旗下有藝人出道兩天就轉個人勢
證據只抹一半?紳士繪師Rouka遭質疑描AI圖 本人僅聲明「沒使用AI」
日本漫畫家以AI「換比基尼」篡改偶像照片 炎上後致歉並終止STU48合作
贊助廣告