AI產物過度激增!研究發現「用AI內容訓練AI」會導致模型崩潰 錯誤不可回溯

AI(人工智慧)的時代已經來臨,在非營利組織 OpenAI 的聊天機器人 ChatGPT 開放使用 6 個月內,許多跨國頂尖企業已將 AI 相關技術導入工作中,藝術創作者也爭先恐後訓練深度學習模型。
本站曾報導 AI繪圖在動漫二創圈的爭議,遊戲公司也開始用 AI 開發新作,然而隨著越來越多人使用 AI 製作媒體內容,電腦作品也在網路上激增,且被後續的使用者拿來訓練自己的 AI。來自英國和加拿大的研究人員發現,這樣會產生「模型崩潰」的現象,成果公開在 arXiv 期刊網站,「我們發現在 AI 訓練過程,使用 AI 生成的內容來訓練模型,結果會導致不可逆轉的缺陷。」
研究人員聚焦「文字訓練文字」「圖像到圖像」兩類 AI 生成模型,得出結論:「若深度學習的資料來源是其他模型的生成內容,會導致訓練中的模型崩潰、進入退化的過程,隨著時間進展,訓練中的 AI 會忘記原初的基層資料設置……整個過程不可逆,即使就近乎理想的長期學習條件來看也是如此。」
簡單來說,長期下來,用 AI 產物訓練 AI,原本資料當中的錯誤成分會重複合併,導致深度學習模型進一步透過「錯誤的」方式感知現實,該論文的主要作者之一 Ilia Shumailov 表示,「我們驚訝地觀察到,模型崩潰發生的速度有多快,可以迅速忘記他們最初學習的大部分原始資料。」
該論文的另一位作者,劍橋大學與愛丁堡大學安全工程學系教授 Ross Anderson,在一篇討論該研究的部落格文章寫到,「就如同人類散佈在海洋中的塑膠垃圾,或是大氣中的二氧化碳,我們用『廢話』(blah)填滿網際網路,這使得那些透過網路抓取資料,訓練新模型的過程更加困難。」
他還提醒,這個現象會成為那些投入訓練 AI 的先行公司,或掌控大規模人機互動機會(如 ChatGPT)的企業的優勢,因為它們能掌控用來訓練或輸出的資料庫,「事實上,我們已經看到 AI 新創公司在 Internet Archive 尋找訓練資料庫。」
該論文研究者 Ilia Shumailov 表示,人們去感受及體驗世界所產生的原生內容,可能多少與現實世界有所差異(本質上的偏差),但 AI 更誇張,「電腦生成模型往往過度學習(overfit)流行資料(大宗的數據),時常誤解或扭曲較少的資料。」
他向外媒 VentureBeat 解釋,舉機器學習模型在 100 隻貓的圖庫進行訓練的案例,「其中 10 隻貓是藍毛,90 隻貓是黃毛,該模型意識到黃貓更普遍,但也理解成藍貓比實際上更黃,當被要求產出新內容時,結果就會提供一些綠貓來。」
「長時間下來,藍毛貓的原始特徵會在連續的訓練週期中逐漸消失,從藍色變成綠色,最後變成黃色。這種漸進的扭曲,和較為少數的數據特徵丟失,就是一種模型崩潰。為防止這種情況發生,重點是要確保少數群體在資料庫中的公平性與代表性,無論是在數量上,還是針對獨特特徵的準確描述。」
當 AI 模型生成的內容,最終污染了後續模型的訓練庫時,發生模型崩潰的情況,這聽起來滿合理的,但還會有更嚴重的影響,例如基於性別、種族或其他敏感屬性的歧視,AI 會逐步丟失之前學的到資料,根據它們強化的「信念」來曲解現實。
研究人員還發現,即使訓練模型的過程中,以「減少訓練週期的多次迭代」來避免這種情況,模型崩潰仍然會發生,因為 AI 開始產生錯誤反應,以避免資料頻繁訓練。
作為對策,該論文指出,「保留原始資料庫或人類生成資料的副本,並根據這些資料定期重新訓練,以避免與 AI 生成內容混淆。」或者,從頭開始用原始數據刷新 AI 的腦袋。
為防止 AI 模型崩潰,Shumailov 補充關鍵做法:保證 AI 訓練時準確描述出原始資料的特徵,在資料庫中區隔少數樣本並強調其代表性,「即使用 10% 的人類原生數據來訓練後面產出的模型(subsequent generations),模型崩潰仍然會發生,只是不會那麼快。」
模型 更多報導
猜你喜歡
同類好文

組一輩子團!國外玩家笑談《龍與地下城》跑團50年心路歷程

日調查千名玩家去年最愛遊戲:前20名幾乎都是日本IP 唯一例外是《原神》

強調「原廠唯一授權」!樂意宣布重新代理《SF Online》3月上市

不是亂叫?實況主小明劍魔學凱能E、R叫聲唯妙唯肖 網笑:熟練地令人心疼

VTuber視訊鏡頭露手遭羞辱為「怪物」 本人高EQ回應意外圈粉

前卡普空概念美術抱怨沒出現在《魔物獵人荒野》製作名單裡!本人事後刪文

與食材聯動...holo角卷綿芽合作日本涮乃葉推「羊肉涮涮鍋」

好數字來臨力!《葬送的芙莉蓮》官推慶祝114萬5千追隨者 你是一個一個一個追蹤者啊

《魔物獵人 荒野》3月活動任務公開!超濃起司、堅鎧玉通通刷起來

奶爸獵人!《魔物獵人 荒野》老爸邊顧嫩嬰邊狩獵 上萬網友大讚:真男人

被檢舉?小明劍魔「找自己問題」迷因二創影片遭大量下架 張角、諸葛亮都遭殃

想改造型...玩家自製《魔物獵人荒野》無限編輯角色、艾路貓模組

木棉花鉅獻《邦邦世家》黃色復古字幕超有感 唱歌還會跑KTV白藍字幕

VTuber「Ironmouse」為慢性病同行發聲:這並非甚麼噱頭 而是糟糕的現實

《死亡擱淺2》敲定6/26推出 小島秀夫親剪10分鐘預告公開

小明劍魔「找自己問題」、「我老爸得了MVP」是什麼梗?實況主開噴網友掀大量二創

Niantic把《Pokémon Go》賣了!中東遊戲巨頭豪擲35億美元天價收購3IP

「這女孩是個單親爸爸」?Steam獨立遊戲「災難級」翻譯品質遭日媒吐嘈

台灣野兔holo大拜拜協助救護掀海內外熱議 助人善舉Kiara、Iofi都留言感謝

余沒在聽!holo大拜拜百鬼Coser還原度高 「聽人說話」牌子惹來本人爆笑

VTuber Nimi愛貓Bean過世 宣布將繼續休息、暫停直播

子午「響Hibiki」出面澄清轉生謠言:那不是我、希望大家尊重對方

holo夏色祭為副帳發文時機道歉:事先不知道詩音的畢業公告是當天發布

補償呢?PSN斷線災情送五天PS Plus會員但還有人還沒收到

「噴火龍形狀」辣味奇多出現於拍賣網站!最終以8.8萬美金賣出

長青連載30年!漫畫家青山剛昌:目標是把《名偵探柯南》故事寫完

兌現承諾!holo馬自立&Ollie一見面即喇舌 Ollie事後回憶:她好香...

holo紫咲詩音宣布4/26畢業 海豚練字帳ルカ隔空突發文:願你幸福

《軒轅劍》衍生格鬥新作 《軒轅劍 巔峰對決》亮相!妮可、于小雪集結對決

holo天音彼方提起桐生可可:漸漸有人不認識傳說之龍了
火熱排行

日本事務所為合約到期VTuber發畢業告知 本人看公告才得知困惑發聲:嗯?

holo貓又小粥回顧4年前生日Live放送事故:不是任何人的錯、自己已經放下了

玩哏請適度...台V真理果嚴肅表明將禁言「越線骨科哏」:現實中超噁心

日調查千名玩家去年最愛遊戲:前20名幾乎都是日本IP 唯一例外是《原神》

Steam「黑白紳士名作2代」被刷壓倒性負評!DLC引中國玩家不滿

組一輩子團!國外玩家笑談《龍與地下城》跑團50年心路歷程

如何將《魔物獵人 荒野》測試版捏臉數據繼承到正式版?開局創角記得選

Visa、Mastercard回歸DLsite但紳士們十分悲觀:好多東西不見了

紳士漫畫家急徵繪師!5個月內畫完120頁可賺660萬元

強調「原廠唯一授權」!樂意宣布重新代理《SF Online》3月上市

前卡普空概念美術抱怨沒出現在《魔物獵人荒野》製作名單裡!本人事後刪文

不能說很像...新人VTuber「猫宮るな」形象撞臉潤羽露西婭

嚇鼠...VTuber茸茸鼠為工作來台 元宵節放天燈卻目睹燒毀瞬間

四度宣導...holo大神澪為誤用AI圖做封面道歉 呼籲詠唱師勿用官方標籤發圖

子午獎募集開始!「最佳小丑獎」煌Kirali被禁賽?粉絲:不歡迎職業人士

小明劍魔「找自己問題」、「我老爸得了MVP」是什麼梗?實況主開噴網友掀大量二創

LOL/打輸統神壓力多大?Maple稱「當年Betty壓力大到無法入睡」

玩到停不下來!《天國降臨:救贖2》評測:是波希米亞劍聖 也可以是種馬傳奇

芙阿嬤吃鼎泰豐!小編發文「豆苗的芙莉蓮」卻遭日網質疑:不是空心菜嗎?

LOL/剛普朗克實況主「浪D」30歲62%勝率上韓服菁英!但帳號馬上不見

DLsite好評紳士《怪物黑市》繁中步兵版發售!瑟瑟魔物產業鏈...受孕販賣一條龍

《刺客教條:暗影者》推珍奶套組合作周邊 海外網友:那是台灣的

一億戒尼亂丟?台北動漫節發布失物招領公告...今年又有獵人遺失執照了

VTuber視訊鏡頭露手遭羞辱為「怪物」 本人高EQ回應意外圈粉

授權爭議延燒...台社團主辦「米又贏-米哈遊Only」宣布取消:場地審核未通過

太厲害!台灣玩家在《Minecraft》打造「台北城市」:麥塊讓我找到人生目標

吉伊卡哇台北快閃店爆民眾偷藏「哥布林」?官方宣布禁賣:擇日釋出

不是亂叫?實況主小明劍魔學凱能E、R叫聲唯妙唯肖 網笑:熟練地令人心疼

VTuber「Ironmouse」為慢性病同行發聲:這並非甚麼噱頭 而是糟糕的現實
