AI產物過度激增!研究發現「用AI內容訓練AI」會導致模型崩潰 錯誤不可回溯
AI(人工智慧)的時代已經來臨,在非營利組織 OpenAI 的聊天機器人 ChatGPT 開放使用 6 個月內,許多跨國頂尖企業已將 AI 相關技術導入工作中,藝術創作者也爭先恐後訓練深度學習模型。
本站曾報導 AI繪圖在動漫二創圈的爭議,遊戲公司也開始用 AI 開發新作,然而隨著越來越多人使用 AI 製作媒體內容,電腦作品也在網路上激增,且被後續的使用者拿來訓練自己的 AI。來自英國和加拿大的研究人員發現,這樣會產生「模型崩潰」的現象,成果公開在 arXiv 期刊網站,「我們發現在 AI 訓練過程,使用 AI 生成的內容來訓練模型,結果會導致不可逆轉的缺陷。」
研究人員聚焦「文字訓練文字」「圖像到圖像」兩類 AI 生成模型,得出結論:「若深度學習的資料來源是其他模型的生成內容,會導致訓練中的模型崩潰、進入退化的過程,隨著時間進展,訓練中的 AI 會忘記原初的基層資料設置……整個過程不可逆,即使就近乎理想的長期學習條件來看也是如此。」
簡單來說,長期下來,用 AI 產物訓練 AI,原本資料當中的錯誤成分會重複合併,導致深度學習模型進一步透過「錯誤的」方式感知現實,該論文的主要作者之一 Ilia Shumailov 表示,「我們驚訝地觀察到,模型崩潰發生的速度有多快,可以迅速忘記他們最初學習的大部分原始資料。」
該論文的另一位作者,劍橋大學與愛丁堡大學安全工程學系教授 Ross Anderson,在一篇討論該研究的部落格文章寫到,「就如同人類散佈在海洋中的塑膠垃圾,或是大氣中的二氧化碳,我們用『廢話』(blah)填滿網際網路,這使得那些透過網路抓取資料,訓練新模型的過程更加困難。」
他還提醒,這個現象會成為那些投入訓練 AI 的先行公司,或掌控大規模人機互動機會(如 ChatGPT)的企業的優勢,因為它們能掌控用來訓練或輸出的資料庫,「事實上,我們已經看到 AI 新創公司在 Internet Archive 尋找訓練資料庫。」
該論文研究者 Ilia Shumailov 表示,人們去感受及體驗世界所產生的原生內容,可能多少與現實世界有所差異(本質上的偏差),但 AI 更誇張,「電腦生成模型往往過度學習(overfit)流行資料(大宗的數據),時常誤解或扭曲較少的資料。」
他向外媒 VentureBeat 解釋,舉機器學習模型在 100 隻貓的圖庫進行訓練的案例,「其中 10 隻貓是藍毛,90 隻貓是黃毛,該模型意識到黃貓更普遍,但也理解成藍貓比實際上更黃,當被要求產出新內容時,結果就會提供一些綠貓來。」
「長時間下來,藍毛貓的原始特徵會在連續的訓練週期中逐漸消失,從藍色變成綠色,最後變成黃色。這種漸進的扭曲,和較為少數的數據特徵丟失,就是一種模型崩潰。為防止這種情況發生,重點是要確保少數群體在資料庫中的公平性與代表性,無論是在數量上,還是針對獨特特徵的準確描述。」
當 AI 模型生成的內容,最終污染了後續模型的訓練庫時,發生模型崩潰的情況,這聽起來滿合理的,但還會有更嚴重的影響,例如基於性別、種族或其他敏感屬性的歧視,AI 會逐步丟失之前學的到資料,根據它們強化的「信念」來曲解現實。
研究人員還發現,即使訓練模型的過程中,以「減少訓練週期的多次迭代」來避免這種情況,模型崩潰仍然會發生,因為 AI 開始產生錯誤反應,以避免資料頻繁訓練。
作為對策,該論文指出,「保留原始資料庫或人類生成資料的副本,並根據這些資料定期重新訓練,以避免與 AI 生成內容混淆。」或者,從頭開始用原始數據刷新 AI 的腦袋。
為防止 AI 模型崩潰,Shumailov 補充關鍵做法:保證 AI 訓練時準確描述出原始資料的特徵,在資料庫中區隔少數樣本並強調其代表性,「即使用 10% 的人類原生數據來訓練後面產出的模型(subsequent generations),模型崩潰仍然會發生,只是不會那麼快。」
模型 更多報導
猜你喜歡
同類好文
露臉炒流量?台灣VTuber保育計劃批Mojoy Live傷害圈子 即日起禁用素材
春魚台V「冰霧」發歌Diss實況主騷擾行為...Yoro拍片澄清 女方丟23頁PPT回擊
台灣VTuber「學測陪讀企劃」登場!11位具教學經驗台V分科開台幫衝刺
2025年初迷因王「小明劍魔」Po全新婚紗照!網嘆:一個願打一個願挨
《勝利女神:妮姬》新造型沒穿褲子!官方繪師澄清:這是一種時尚
推特「純手繪」繪師創作竟浮現Gemini浮水印?被踢爆後卻反嗆網友
hololive四期生「天音彼方」將於12月27日畢業
劣跡實況主Nina Lin直播中行竊被抓包 本人承認並嗆聲「一點都不在乎」
太冷門...女子痛房壁貼被老爸丟棄 原房間滿滿《南方公園》蘭迪網傻眼
Twitch實況主Nina涉嫌性騷擾卻僅被停權一週 平台從輕處理引發眾怒
《逃離塔科夫》全球首位觸發「逃離塔科夫」結局玩家出爐!但卻有點糟糕
日本遊戲公司要求美術應徵者「現場繪圖」 避免AI圖引發爭議
hololive「天音彼方」宣布畢業 表明不會轉生、請粉絲不要過度尋找自己
NIJISANJI德比「早上10點通勤」論點炎上 本人道歉並澄清無意貶低上班族
「貓咪鑽蘿莉塔洋裝」推特爆紅!太可愛勾網友興趣見自介「48歲男」驚呆
LOL/氣氛火爆...北美FLY揭世界賽Vlog 主力Inspired爆噴隊友「像是NPC」
始祖降臨金V獎!絆愛KizunaAI回歸後台灣首場表演在金V獎頒獎典禮
Twitch實況主CodeMiko晃動物理故障 歐派大失控網友笑瘋
太像?以Faker為原型的韓國成人BL小說遭下架 作者稱純屬虛構但還是道歉了
《遮羞艾莉》將推出等身抱枕套!原作者講幹話:買三個就會覺得一個很便宜
積蓄全沒了?妻斗內67萬人民幣給男實況主 丈夫崩潰提離婚
因為偷竊?實況主Nina Lin圖奇頻道又被Ban!六週內被停權第三次
還有這好事?真人妻繪師「佃煮海苔男」推出丈夫視角ASMR
傳《藥師少女的獨語》將拍真人電影!「國民女兒」蘆田愛菜飾貓貓
純愛後宮漫《100女友》原作者推廣逝世粉絲二創圖 盼網友多多支持
《逆水寒》週年慶大有玄機!推出大量內容堪稱是全新遊戲等級!
LOL/北美大師兄稱「AI打不贏人類」被網友虧:你也打不贏Emiru
曾在《艾爾登法環》擊敗Boss的3歲金魚離世 主人發文表示想念
沒救了...2025糞作《心之眼》推出免費版 Steam同上卻只有0.04個《星鳴特攻》
《刺客教條:暗影者》x《進擊的巨人》評價炸裂...網嘆:浪費人生30分鐘
火熱排行
黃小潔初音改裝主機「不符合主辦規定」僅拿第五名!掀社群正反大論戰
炎上商法?黃小潔新聲明影片竟嚴厲斥責評審 還建議對方「發文要深思熟慮」
「仰頭芙莉蓮」很難畫?朝凪稱「對紳士漫畫家只是基本功」
日本VTuber事務所Vivid V宣布破產!元老成員嘆:兩次加企業勢都倒閉...
露臉炒流量?台灣VTuber保育計劃批Mojoy Live傷害圈子 即日起禁用素材
集合啦!四位真人妻VTuber組「台V人妻聚會」創立YouTube頻道
春魚台V「冰霧」發歌Diss實況主騷擾行為...Yoro拍片澄清 女方丟23頁PPT回擊
台灣VTuber「學測陪讀企劃」登場!11位具教學經驗台V分科開台幫衝刺
DLsite推出全新社群平台「Pommu」紳士開關放在首頁、創作者加入試水溫
LOL/中國人兌現「T1帶Doran奪冠就跳樓」承諾!跳傘猙獰表情遭網友惡搞
2025年初迷因王「小明劍魔」Po全新婚紗照!網嘆:一個願打一個願挨
hololive鷹嶺琉依登《Comptiq》同框魯路修 附錄商品設計卻掀議
LOL/有這麼難?101觀賽派對答題領珍奶「CFO瑞士制戰績」刷倒一票人
hololive博衣小夜璃為引起騷動以手寫信致歉 會重新審視社群使用方式
Twitch女實況主秀歐派「左右外彈」超強身體控制!剪輯點閱突破六位數
《勝利女神:妮姬》新角「莉貝雷利奧」屁屁有亮點!官方繪師:我很認真畫
Twitch實況主Nina涉嫌性騷擾卻僅被停權一週 平台從輕處理引發眾怒
LOL/多名實況主豪賭「如果T1能帶Doran奪冠」就剃頭、從25樓跳下去
曹點滿滿!Steam紳士《29歲的人妻想成為職業Coser是否搞錯了什麼》上市
hololive戌神沁音暫停活動 將專注陪伴家人療養
黃小潔發百字道歉文!坦言帶入過多個人情緒 造成外界揣測與誤會
LOL/氣氛火爆...北美FLY揭世界賽Vlog 主力Inspired爆噴隊友「像是NPC」
LOL/T1奪冠語音釋出!Oner虧Doran「不想贏是吧」、Faker還想刷助攻
《勝利女神:妮姬》新造型沒穿褲子!官方繪師澄清:這是一種時尚
仰頭芙莉蓮是什麼?網友分享畫畫練習卻掀二創潮 還有講師課堂現場教學
推特「純手繪」繪師創作竟浮現Gemini浮水印?被踢爆後卻反嗆網友
還有這好事?真人妻繪師「佃煮海苔男」推出丈夫視角ASMR
hololive四期生「天音彼方」將於12月27日畢業
LOL/前SKT上路被網友問「和Faker同隊卻拿不到世界冠軍?」忍不住噴髒話
劣跡實況主Nina Lin直播中行竊被抓包 本人承認並嗆聲「一點都不在乎」
贊助廣告