AI產物過度激增!研究發現「用AI內容訓練AI」會導致模型崩潰 錯誤不可回溯
AI(人工智慧)的時代已經來臨,在非營利組織 OpenAI 的聊天機器人 ChatGPT 開放使用 6 個月內,許多跨國頂尖企業已將 AI 相關技術導入工作中,藝術創作者也爭先恐後訓練深度學習模型。
本站曾報導 AI繪圖在動漫二創圈的爭議,遊戲公司也開始用 AI 開發新作,然而隨著越來越多人使用 AI 製作媒體內容,電腦作品也在網路上激增,且被後續的使用者拿來訓練自己的 AI。來自英國和加拿大的研究人員發現,這樣會產生「模型崩潰」的現象,成果公開在 arXiv 期刊網站,「我們發現在 AI 訓練過程,使用 AI 生成的內容來訓練模型,結果會導致不可逆轉的缺陷。」
研究人員聚焦「文字訓練文字」「圖像到圖像」兩類 AI 生成模型,得出結論:「若深度學習的資料來源是其他模型的生成內容,會導致訓練中的模型崩潰、進入退化的過程,隨著時間進展,訓練中的 AI 會忘記原初的基層資料設置……整個過程不可逆,即使就近乎理想的長期學習條件來看也是如此。」
簡單來說,長期下來,用 AI 產物訓練 AI,原本資料當中的錯誤成分會重複合併,導致深度學習模型進一步透過「錯誤的」方式感知現實,該論文的主要作者之一 Ilia Shumailov 表示,「我們驚訝地觀察到,模型崩潰發生的速度有多快,可以迅速忘記他們最初學習的大部分原始資料。」
該論文的另一位作者,劍橋大學與愛丁堡大學安全工程學系教授 Ross Anderson,在一篇討論該研究的部落格文章寫到,「就如同人類散佈在海洋中的塑膠垃圾,或是大氣中的二氧化碳,我們用『廢話』(blah)填滿網際網路,這使得那些透過網路抓取資料,訓練新模型的過程更加困難。」
他還提醒,這個現象會成為那些投入訓練 AI 的先行公司,或掌控大規模人機互動機會(如 ChatGPT)的企業的優勢,因為它們能掌控用來訓練或輸出的資料庫,「事實上,我們已經看到 AI 新創公司在 Internet Archive 尋找訓練資料庫。」
該論文研究者 Ilia Shumailov 表示,人們去感受及體驗世界所產生的原生內容,可能多少與現實世界有所差異(本質上的偏差),但 AI 更誇張,「電腦生成模型往往過度學習(overfit)流行資料(大宗的數據),時常誤解或扭曲較少的資料。」
他向外媒 VentureBeat 解釋,舉機器學習模型在 100 隻貓的圖庫進行訓練的案例,「其中 10 隻貓是藍毛,90 隻貓是黃毛,該模型意識到黃貓更普遍,但也理解成藍貓比實際上更黃,當被要求產出新內容時,結果就會提供一些綠貓來。」
「長時間下來,藍毛貓的原始特徵會在連續的訓練週期中逐漸消失,從藍色變成綠色,最後變成黃色。這種漸進的扭曲,和較為少數的數據特徵丟失,就是一種模型崩潰。為防止這種情況發生,重點是要確保少數群體在資料庫中的公平性與代表性,無論是在數量上,還是針對獨特特徵的準確描述。」
當 AI 模型生成的內容,最終污染了後續模型的訓練庫時,發生模型崩潰的情況,這聽起來滿合理的,但還會有更嚴重的影響,例如基於性別、種族或其他敏感屬性的歧視,AI 會逐步丟失之前學的到資料,根據它們強化的「信念」來曲解現實。
研究人員還發現,即使訓練模型的過程中,以「減少訓練週期的多次迭代」來避免這種情況,模型崩潰仍然會發生,因為 AI 開始產生錯誤反應,以避免資料頻繁訓練。
作為對策,該論文指出,「保留原始資料庫或人類生成資料的副本,並根據這些資料定期重新訓練,以避免與 AI 生成內容混淆。」或者,從頭開始用原始數據刷新 AI 的腦袋。
為防止 AI 模型崩潰,Shumailov 補充關鍵做法:保證 AI 訓練時準確描述出原始資料的特徵,在資料庫中區隔少數樣本並強調其代表性,「即使用 10% 的人類原生數據來訓練後面產出的模型(subsequent generations),模型崩潰仍然會發生,只是不會那麼快。」
模型 更多報導
猜你喜歡
同類好文
台文館「阿龍」抄襲中國繪師...委外廠商蹦世界違反著作權法遭起訴
火力全開!動畫《輝夜姬想讓人告白》片尾白銀圭原畫張數突破天際
推特Grok「比基尼改圖」騷擾亂象頻傳!Coser怒斥:平台助長了這種行為
日酸民畫「冷炸雞事件」諷兔田佩克拉外出約會 遭COVER求償150萬日圓
AI生成日本異世界輕小說獲得大賞!被抓包後遭撤銷出版、漫畫化資格
VTuber花數萬買斷Live2D模型 竟被以300元價格當公用模型盜賣
羅傑、峰哥一起被告!網友被Threads反串帳號激怒 卻決定提告羅傑本人
Coser照片遭用grok改少布料?不雅留言多到申訴不完
日本漫畫家以AI「換比基尼」篡改偶像照片 炎上後致歉並終止STU48合作
Steam年初七款免費獨立遊戲整理!多人同樂、單人模擬器小品嚐鮮
神人團隊?Riot Games耍蠢導致全球玩家無法登入《英雄聯盟》
實況主Emiru自曝「只泡澡不淋浴」!網:妳很適合和Asmongold交往
超大型《MINECRAFT》企劃1/5冒險展開!百位VT&實況主 Kson也受邀參加
實況主「蟑螂王」Asmongold終於整理房間!沒發現死老鼠 但找到五份「遠古食物」
Razer揭桌上型AI助理「Project AVA」讓Faker、日本OL「SAO」陪你一整天
熟練得令人心疼...《GTA5》麥可演員又被「假報警」已經和警察變成熟人了
hololive Biboo合作爆紅開發者調整3D臉部追蹤 表情捕捉更加靈動可愛
LOL/夢迴2022?Faker打積分又被LPL選手戳 戰隊懲處卻輕輕放下
《ARC Raiders》玩家遊戲內呼救太大聲 驚動鄰居試圖破門救人
不是人員出走?雨音計劃承認外包中國工作室 未付尾款害VT模型被售出
LOL/加里歐新造型「神盾機甲」超像自由鋼彈!帥到還沒上架就被吹爆
《葬送的芙莉蓮》特展搶先看!複習一比一名場面迎接第二季
買到賺到!《巫師3》、《電馭叛客2077》任天堂eShop標錯價 CDPR承認失誤
Steam壓倒性好評《超英派遣中心》賣300萬套!約5%玩家完全不選擇感情線
真的變羽衣「媽媽」?VTuber時雨羽衣發表新神曲〈ウィマーマ・サーガ〉
《Minecraft》更新動物寶寶外型 眼睛改為單格像素更可愛
玩一場少一場!《英雄聯盟》隨機單中:大混戰延期至1/10下午
純愛超甜《我內心的糟糕念頭》漫畫再一冊就完結!粉絲哀鴻遍野
《傳說對決》泰國女選手作弊案真相曝光 男友發文坦承代打
問題學生也想談戀愛!乙女向《幸運之杖R》吊車尾魔法少女的成長之路
火熱排行
畫得太「逼」真?日本專畫大歐派繪師聲稱遭C107主辦方禁賣新刊
買到賺到!《巫師3》、《電馭叛客2077》任天堂eShop標錯價 CDPR承認失誤
太苦了...日本hololive「PM公園民」生活髒亂彷彿活在廢墟
動保團體PETA發《賽馬娘》無聲鈴鹿骨折圖惹議 該圖明確違反二創規範
紳士漫《對常來我家的辣妹為所欲為》揭第五集封面、FANZA推出動畫第三集!
台文館「阿龍」抄襲中國繪師...委外廠商蹦世界違反著作權法遭起訴
《勝利女神:妮姬》愛麗絲繪師再推新作 31歲社畜為錢慘當魔法少女
問VT長怎樣?Ray一行人與Ironmouse互動掀議 Ray批鐵鼠事後亂講話
實況主Shroud讚賞《33號遠征隊》很好玩!親口承認「Asmongold是對的」
火力全開!動畫《輝夜姬想讓人告白》片尾白銀圭原畫張數突破天際
大還要更大!《碧藍航線》專畫大歐派繪師嘆:第一次被官方說畫太小
推特Grok「比基尼改圖」騷擾亂象頻傳!Coser怒斥:平台助長了這種行為
日酸民畫「冷炸雞事件」諷兔田佩克拉外出約會 遭COVER求償150萬日圓
AI生成日本異世界輕小說獲得大賞!被抓包後遭撤銷出版、漫畫化資格
VTuber花數萬買斷Live2D模型 竟被以300元價格當公用模型盜賣
獲得Zeus、Chovy、Keria、Ruler指導!韓高職生奪《英雄聯盟》全國冠軍
紳士名作《NTRaholic》Steam終於上市!扮黃毛巨巨房東奪走新婚人妻的幸福
大到溢出來!《蔚藍檔案》揭五週年視覺圖 調月莉央禮服二創滿天飛
熟練得令人心疼...《GTA5》麥可演員又被「假報警」已經和警察變成熟人了
獨/《活俠傳》虞小梅、郁竹感情線將同步推出!熊承諾玩家不必再等上一年
國王的瑟圖?紳士繪師Hews秀「白色走光圖」反制推特新功能
拒絕當陪跑NPC...《聯盟戰棋》巴黎公開賽「幻滅」奪冠:終於證明自己
羅傑、峰哥一起被告!網友被Threads反串帳號激怒 卻決定提告羅傑本人
大物新人台V幽李鈴初配信同接1.2萬!一出道就爆自己「前世」?
Coser照片遭用grok改少布料?不雅留言多到申訴不完
加藤小夏成PlayStation X 潮牌聯名服飾代言人!貼近實況上自然隨性風格
日本推特掀「紳士版」節奏挑戰!擦邊帳號集體吟聲響應
超大型《MINECRAFT》企劃1/5冒險展開!百位VT&實況主 Kson也受邀參加
人妻真香!韓紳士漫《洞洞雜貨店》連載三年151話完結 熟女角色人氣碾壓眾生
2D動畫視覺小說《鄰家的人妻》Steam商店公開!美艷人妻用身體招待主角
贊助廣告