AI產物過度激增!研究發現「用AI內容訓練AI」會導致模型崩潰 錯誤不可回溯

AI(人工智慧)的時代已經來臨,在非營利組織 OpenAI 的聊天機器人 ChatGPT 開放使用 6 個月內,許多跨國頂尖企業已將 AI 相關技術導入工作中,藝術創作者也爭先恐後訓練深度學習模型

本站曾報導 AI繪圖在動漫二創圈的爭議,遊戲公司也開始用 AI 開發新作,然而隨著越來越多人使用 AI 製作媒體內容,電腦作品也在網路上激增,且被後續的使用者拿來訓練自己的 AI。來自英國和加拿大的研究人員發現,這樣會產生「模型崩潰」的現象,成果公開在 arXiv 期刊網站,「我們發現在 AI 訓練過程,使用 AI 生成的內容來訓練模型,結果會導致不可逆轉的缺陷。」

研究人員聚焦「文字訓練文字」「圖像到圖像」兩類 AI 生成模型,得出結論:「若深度學習的資料來源是其他模型的生成內容,會導致訓練中的模型崩潰、進入退化的過程,隨著時間進展,訓練中的 AI 會忘記原初的基層資料設置……整個過程不可逆,即使就近乎理想的長期學習條件來看也是如此。」

圖/gigazine
圖/gigazine

簡單來說,長期下來,用 AI 產物訓練 AI,原本資料當中的錯誤成分會重複合併,導致深度學習模型進一步透過「錯誤的」方式感知現實,該論文的主要作者之一 Ilia Shumailov 表示,「我們驚訝地觀察到,模型崩潰發生的速度有多快,可以迅速忘記他們最初學習的大部分原始資料。」

該論文的另一位作者,劍橋大學與愛丁堡大學安全工程學系教授 Ross Anderson,在一篇討論該研究的部落格文章寫到,「就如同人類散佈在海洋中的塑膠垃圾,或是大氣中的二氧化碳,我們用『廢話』(blah)填滿網際網路,這使得那些透過網路抓取資料,訓練新模型的過程更加困難。」

他還提醒,這個現象會成為那些投入訓練 AI 的先行公司,或掌控大規模人機互動機會(如 ChatGPT)的企業的優勢,因為它們能掌控用來訓練或輸出的資料庫,「事實上,我們已經看到 AI 新創公司在 Internet Archive 尋找訓練資料庫。」

該論文研究者 Ilia Shumailov 表示,人們去感受及體驗世界所產生的原生內容,可能多少與現實世界有所差異(本質上的偏差),但 AI 更誇張,「電腦生成模型往往過度學習(overfit)流行資料(大宗的數據),時常誤解或扭曲較少的資料。」

他向外媒 VentureBeat 解釋,舉機器學習模型在 100 隻貓的圖庫進行訓練的案例,「其中 10 隻貓是藍毛,90 隻貓是黃毛,該模型意識到黃貓更普遍,但也理解成藍貓比實際上更黃,當被要求產出新內容時,結果就會提供一些綠貓來。」

「長時間下來,藍毛貓的原始特徵會在連續的訓練週期中逐漸消失,從藍色變成綠色,最後變成黃色。這種漸進的扭曲,和較為少數的數據特徵丟失,就是一種模型崩潰。為防止這種情況發生,重點是要確保少數群體在資料庫中的公平性與代表性,無論是在數量上,還是針對獨特特徵的準確描述。」

當 AI 模型生成的內容,最終污染了後續模型的訓練庫時,發生模型崩潰的情況,這聽起來滿合理的,但還會有更嚴重的影響,例如基於性別、種族或其他敏感屬性的歧視,AI 會逐步丟失之前學的到資料,根據它們強化的「信念」來曲解現實。

研究人員還發現,即使訓練模型的過程中,以「減少訓練週期的多次迭代」來避免這種情況,模型崩潰仍然會發生,因為 AI 開始產生錯誤反應,以避免資料頻繁訓練。

作為對策,該論文指出,「保留原始資料庫或人類生成資料的副本,並根據這些資料定期重新訓練,以避免與 AI 生成內容混淆。」或者,從頭開始用原始數據刷新 AI 的腦袋。

為防止 AI 模型崩潰,Shumailov 補充關鍵做法:保證 AI 訓練時準確描述出原始資料的特徵,在資料庫中區隔少數樣本並強調其代表性,「即使用 10% 的人類原生數據來訓練後面產出的模型(subsequent generations),模型崩潰仍然會發生,只是不會那麼快。」

猜你喜歡

同類好文

瑟圖變梗圖?紳士繪師反制臉書ban人 將插畫加工成「阿拉伯」版本

瑟圖變梗圖?紳士繪師反制臉書ban人 將插畫加工成「阿拉伯」版本

鎖區了...日本電商平台DMM、FANZA阻擋海外IP 網哀鴻遍野

鎖區了...日本電商平台DMM、FANZA阻擋海外IP 網哀鴻遍野

反轉再反轉?中國繪師遭控抄襲台文館吉祥物 端出圖影證據喊話:對方還有鐵證就封筆

反轉再反轉?中國繪師遭控抄襲台文館吉祥物 端出圖影證據喊話:對方還有鐵證就封筆

全新人權「腳」色!《勝利女神:妮姬》推出新角「特羅尼」大廳直接躺下

全新人權「腳」色!《勝利女神:妮姬》推出新角「特羅尼」大廳直接躺下

中國製抄襲遊戲被日本玩家救活 還帶動加速器銷量形成三贏局面?

中國製抄襲遊戲被日本玩家救活 還帶動加速器銷量形成三贏局面?

《劍星》伊芙體模申才恩cosplay「兔假狂歡」服裝 網笑稱:未經和諧版

《劍星》伊芙體模申才恩cosplay「兔假狂歡」服裝 網笑稱:未經和諧版

LOL/太緊張?BLG中路Knight全招灌在無敵小兵身上...下一秒被送回溫泉

LOL/太緊張?BLG中路Knight全招灌在無敵小兵身上...下一秒被送回溫泉

LOL/變成MSI戰力單位?網稱PSG為「電競漏瑚」:專打強隊

LOL/變成MSI戰力單位?網稱PSG為「電競漏瑚」:專打強隊

急極了!網玩黑白紳士名作400小時 找出第一天就「速通」攻略流程

急極了!網玩黑白紳士名作400小時 找出第一天就「速通」攻略流程

魔法濕徒踏上絕頂之旅!日本TMA推出《葬送的芙莉蓮》謎片版

魔法濕徒踏上絕頂之旅!日本TMA推出《葬送的芙莉蓮》謎片版

推特認證不夠瑟?從《碧藍航線》新泳裝系列造型看X貼文嵌入機制

推特認證不夠瑟?從《碧藍航線》新泳裝系列造型看X貼文嵌入機制

虧損81億日圓!Square Enix放棄獨佔 將積極追求多平台策略

虧損81億日圓!Square Enix放棄獨佔 將積極追求多平台策略

曹興奮的!紳士漫畫名作《未亡人雪女》第三集預定年底推出

曹興奮的!紳士漫畫名作《未亡人雪女》第三集預定年底推出

道歉了!台文館廠商承認吉祥物「阿龍」為「參考網路創作繪製而成」

道歉了!台文館廠商承認吉祥物「阿龍」為「參考網路創作繪製而成」

謝謝哥哥們!黑白紳士名作Steam銷量突破20萬 二代DLC 6月發售

謝謝哥哥們!黑白紳士名作Steam銷量突破20萬 二代DLC 6月發售

金亨泰都轉推!繪師畫《劍星》伊芙與《尼爾:自動人形》2B互穿衣服

金亨泰都轉推!繪師畫《劍星》伊芙與《尼爾:自動人形》2B互穿衣服

說詞變了?「阿龍」涉嫌抄襲中國繪師 台文館:吉祥物智財權歸廠商所有

說詞變了?「阿龍」涉嫌抄襲中國繪師 台文館:吉祥物智財權歸廠商所有

梅川伊芙!《碧藍航線》7週年新造型只剩下小毛巾 瑟到官方不敢播

梅川伊芙!《碧藍航線》7週年新造型只剩下小毛巾 瑟到官方不敢播

小孤獨讀幾班?《孤獨搖滾》作者濱路晶遺忘設定 上網求助粉絲都笑了

小孤獨讀幾班?《孤獨搖滾》作者濱路晶遺忘設定 上網求助粉絲都笑了

日本創作平台Fantia停止支援Visa、Mastercard 儲值點數TORA COIN也不行

日本創作平台Fantia停止支援Visa、Mastercard 儲值點數TORA COIN也不行

《擅長捉弄人的高木同學》山本崇一朗揭新作女主角繪圖!反光有小巧思

《擅長捉弄人的高木同學》山本崇一朗揭新作女主角繪圖!反光有小巧思

紳士漫畫名作《楓與鈴》第八話6/21推出!額外揭露兩部作品動畫化資訊?

紳士漫畫名作《楓與鈴》第八話6/21推出!額外揭露兩部作品動畫化資訊?

LOL/《英雄聯盟》第一屆「電競傳奇殿堂」名單即將於5月22日出爐!

LOL/《英雄聯盟》第一屆「電競傳奇殿堂」名單即將於5月22日出爐!

世界真小!《洛克人X》BL同人漫畫家拒賣作品給原作者 兩人竟在20年後意外相認

世界真小!《洛克人X》BL同人漫畫家拒賣作品給原作者 兩人竟在20年後意外相認

不給你玩!《塵白禁域》宣布中國未成年玩家禁玩遊戲 官方開放退款申請

不給你玩!《塵白禁域》宣布中國未成年玩家禁玩遊戲 官方開放退款申請

風向不對?《刺客教條:暗影者》總監稱彌助為 「我們的武士」訪談內容遭刪減

風向不對?《刺客教條:暗影者》總監稱彌助為 「我們的武士」訪談內容遭刪減

LOL/又帥又強!G2 Hans Sama表現超亮眼 戰隊製作道歉迷因引網朝聖

LOL/又帥又強!G2 Hans Sama表現超亮眼 戰隊製作道歉迷因引網朝聖

LOL/還有招!Gen.G賽後透露Canyon還能選薩科 卡爾瑟斯是事前預練的

LOL/還有招!Gen.G賽後透露Canyon還能選薩科 卡爾瑟斯是事前預練的

LOL/BLG上路Bin賽後稱「PSG逃避對線」連中國網友也看不下去:贏不起

LOL/BLG上路Bin賽後稱「PSG逃避對線」連中國網友也看不下去:贏不起

像《艾爾登法環》超強Boss?英王查爾斯三世登基首幅肖像畫引熱議

像《艾爾登法環》超強Boss?英王查爾斯三世登基首幅肖像畫引熱議

火熱排行

瑟圖變梗圖?紳士繪師反制臉書ban人 將插畫加工成「阿拉伯」版本

瑟圖變梗圖?紳士繪師反制臉書ban人 將插畫加工成「阿拉伯」版本

鎖區了...日本電商平台DMM、FANZA阻擋海外IP 網哀鴻遍野

鎖區了...日本電商平台DMM、FANZA阻擋海外IP 網哀鴻遍野

《NTRaholic》團隊紳士新作《社群審查》登Steam商店頁面

《NTRaholic》團隊紳士新作《社群審查》登Steam商店頁面

反轉再反轉?中國繪師遭控抄襲台文館吉祥物 端出圖影證據喊話:對方還有鐵證就封筆

反轉再反轉?中國繪師遭控抄襲台文館吉祥物 端出圖影證據喊話:對方還有鐵證就封筆

全新人權「腳」色!《勝利女神:妮姬》推出新角「特羅尼」大廳直接躺下

全新人權「腳」色!《勝利女神:妮姬》推出新角「特羅尼」大廳直接躺下

中國製抄襲遊戲被日本玩家救活 還帶動加速器銷量形成三贏局面?

中國製抄襲遊戲被日本玩家救活 還帶動加速器銷量形成三贏局面?

《劍星》伊芙體模申才恩cosplay「兔假狂歡」服裝 網笑稱:未經和諧版

《劍星》伊芙體模申才恩cosplay「兔假狂歡」服裝 網笑稱:未經和諧版

LOL/太緊張?BLG中路Knight全招灌在無敵小兵身上...下一秒被送回溫泉

LOL/太緊張?BLG中路Knight全招灌在無敵小兵身上...下一秒被送回溫泉

LOL/變成MSI戰力單位?網稱PSG為「電競漏瑚」:專打強隊

LOL/變成MSI戰力單位?網稱PSG為「電競漏瑚」:專打強隊

急極了!網玩黑白紳士名作400小時 找出第一天就「速通」攻略流程

急極了!網玩黑白紳士名作400小時 找出第一天就「速通」攻略流程

魔法濕徒踏上絕頂之旅!日本TMA推出《葬送的芙莉蓮》謎片版

魔法濕徒踏上絕頂之旅!日本TMA推出《葬送的芙莉蓮》謎片版

推特認證不夠瑟?從《碧藍航線》新泳裝系列造型看X貼文嵌入機制

推特認證不夠瑟?從《碧藍航線》新泳裝系列造型看X貼文嵌入機制

虧損81億日圓!Square Enix放棄獨佔 將積極追求多平台策略

虧損81億日圓!Square Enix放棄獨佔 將積極追求多平台策略

曹興奮的!紳士漫畫名作《未亡人雪女》第三集預定年底推出

曹興奮的!紳士漫畫名作《未亡人雪女》第三集預定年底推出

道歉了!台文館廠商承認吉祥物「阿龍」為「參考網路創作繪製而成」

道歉了!台文館廠商承認吉祥物「阿龍」為「參考網路創作繪製而成」

謝謝哥哥們!黑白紳士名作Steam銷量突破20萬 二代DLC 6月發售

謝謝哥哥們!黑白紳士名作Steam銷量突破20萬 二代DLC 6月發售

Steam無限重玩節啟動!《絕望與光榮的戰場DX》等紳士遊戲讓弟弟哭到停不下來

Steam無限重玩節啟動!《絕望與光榮的戰場DX》等紳士遊戲讓弟弟哭到停不下來

金亨泰都轉推!繪師畫《劍星》伊芙與《尼爾:自動人形》2B互穿衣服

金亨泰都轉推!繪師畫《劍星》伊芙與《尼爾:自動人形》2B互穿衣服

說詞變了?「阿龍」涉嫌抄襲中國繪師 台文館:吉祥物智財權歸廠商所有

說詞變了?「阿龍」涉嫌抄襲中國繪師 台文館:吉祥物智財權歸廠商所有

梅川伊芙!《碧藍航線》7週年新造型只剩下小毛巾 瑟到官方不敢播

梅川伊芙!《碧藍航線》7週年新造型只剩下小毛巾 瑟到官方不敢播

紳士咖孔明!Steam性轉三國《劉嬋養成計畫》正式推出 餵主公一支一支棒棒

紳士咖孔明!Steam性轉三國《劉嬋養成計畫》正式推出 餵主公一支一支棒棒

小孤獨讀幾班?《孤獨搖滾》作者濱路晶遺忘設定 上網求助粉絲都笑了

小孤獨讀幾班?《孤獨搖滾》作者濱路晶遺忘設定 上網求助粉絲都笑了

日本創作平台Fantia停止支援Visa、Mastercard 儲值點數TORA COIN也不行

日本創作平台Fantia停止支援Visa、Mastercard 儲值點數TORA COIN也不行

《擅長捉弄人的高木同學》山本崇一朗揭新作女主角繪圖!反光有小巧思

《擅長捉弄人的高木同學》山本崇一朗揭新作女主角繪圖!反光有小巧思

紳士漫畫名作《楓與鈴》第八話6/21推出!額外揭露兩部作品動畫化資訊?

紳士漫畫名作《楓與鈴》第八話6/21推出!額外揭露兩部作品動畫化資訊?

LOL/《英雄聯盟》第一屆「電競傳奇殿堂」名單即將於5月22日出爐!

LOL/《英雄聯盟》第一屆「電競傳奇殿堂」名單即將於5月22日出爐!

世界真小!《洛克人X》BL同人漫畫家拒賣作品給原作者 兩人竟在20年後意外相認

世界真小!《洛克人X》BL同人漫畫家拒賣作品給原作者 兩人竟在20年後意外相認

Steam放置養成紳士《哥布林祭司的隨從》照顧阿奴比斯一放就濕

Steam放置養成紳士《哥布林祭司的隨從》照顧阿奴比斯一放就濕

不給你玩!《塵白禁域》宣布中國未成年玩家禁玩遊戲 官方開放退款申請

不給你玩!《塵白禁域》宣布中國未成年玩家禁玩遊戲 官方開放退款申請

風向不對?《刺客教條:暗影者》總監稱彌助為 「我們的武士」訪談內容遭刪減

風向不對?《刺客教條:暗影者》總監稱彌助為 「我們的武士」訪談內容遭刪減