AI產物過度激增!研究發現「用AI內容訓練AI」會導致模型崩潰 錯誤不可回溯

AI(人工智慧)的時代已經來臨,在非營利組織 OpenAI 的聊天機器人 ChatGPT 開放使用 6 個月內,許多跨國頂尖企業已將 AI 相關技術導入工作中,藝術創作者也爭先恐後訓練深度學習模型。
本站曾報導 AI繪圖在動漫二創圈的爭議,遊戲公司也開始用 AI 開發新作,然而隨著越來越多人使用 AI 製作媒體內容,電腦作品也在網路上激增,且被後續的使用者拿來訓練自己的 AI。來自英國和加拿大的研究人員發現,這樣會產生「模型崩潰」的現象,成果公開在 arXiv 期刊網站,「我們發現在 AI 訓練過程,使用 AI 生成的內容來訓練模型,結果會導致不可逆轉的缺陷。」
研究人員聚焦「文字訓練文字」「圖像到圖像」兩類 AI 生成模型,得出結論:「若深度學習的資料來源是其他模型的生成內容,會導致訓練中的模型崩潰、進入退化的過程,隨著時間進展,訓練中的 AI 會忘記原初的基層資料設置……整個過程不可逆,即使就近乎理想的長期學習條件來看也是如此。」
簡單來說,長期下來,用 AI 產物訓練 AI,原本資料當中的錯誤成分會重複合併,導致深度學習模型進一步透過「錯誤的」方式感知現實,該論文的主要作者之一 Ilia Shumailov 表示,「我們驚訝地觀察到,模型崩潰發生的速度有多快,可以迅速忘記他們最初學習的大部分原始資料。」
該論文的另一位作者,劍橋大學與愛丁堡大學安全工程學系教授 Ross Anderson,在一篇討論該研究的部落格文章寫到,「就如同人類散佈在海洋中的塑膠垃圾,或是大氣中的二氧化碳,我們用『廢話』(blah)填滿網際網路,這使得那些透過網路抓取資料,訓練新模型的過程更加困難。」
他還提醒,這個現象會成為那些投入訓練 AI 的先行公司,或掌控大規模人機互動機會(如 ChatGPT)的企業的優勢,因為它們能掌控用來訓練或輸出的資料庫,「事實上,我們已經看到 AI 新創公司在 Internet Archive 尋找訓練資料庫。」
該論文研究者 Ilia Shumailov 表示,人們去感受及體驗世界所產生的原生內容,可能多少與現實世界有所差異(本質上的偏差),但 AI 更誇張,「電腦生成模型往往過度學習(overfit)流行資料(大宗的數據),時常誤解或扭曲較少的資料。」
他向外媒 VentureBeat 解釋,舉機器學習模型在 100 隻貓的圖庫進行訓練的案例,「其中 10 隻貓是藍毛,90 隻貓是黃毛,該模型意識到黃貓更普遍,但也理解成藍貓比實際上更黃,當被要求產出新內容時,結果就會提供一些綠貓來。」
「長時間下來,藍毛貓的原始特徵會在連續的訓練週期中逐漸消失,從藍色變成綠色,最後變成黃色。這種漸進的扭曲,和較為少數的數據特徵丟失,就是一種模型崩潰。為防止這種情況發生,重點是要確保少數群體在資料庫中的公平性與代表性,無論是在數量上,還是針對獨特特徵的準確描述。」
當 AI 模型生成的內容,最終污染了後續模型的訓練庫時,發生模型崩潰的情況,這聽起來滿合理的,但還會有更嚴重的影響,例如基於性別、種族或其他敏感屬性的歧視,AI 會逐步丟失之前學的到資料,根據它們強化的「信念」來曲解現實。
研究人員還發現,即使訓練模型的過程中,以「減少訓練週期的多次迭代」來避免這種情況,模型崩潰仍然會發生,因為 AI 開始產生錯誤反應,以避免資料頻繁訓練。
作為對策,該論文指出,「保留原始資料庫或人類生成資料的副本,並根據這些資料定期重新訓練,以避免與 AI 生成內容混淆。」或者,從頭開始用原始數據刷新 AI 的腦袋。
為防止 AI 模型崩潰,Shumailov 補充關鍵做法:保證 AI 訓練時準確描述出原始資料的特徵,在資料庫中區隔少數樣本並強調其代表性,「即使用 10% 的人類原生數據來訓練後面產出的模型(subsequent generations),模型崩潰仍然會發生,只是不會那麼快。」
模型 更多報導
猜你喜歡
同類好文

阿神曝杏仁咪嚕四年前早已道歉!咪嚕:感謝你的提攜

誠意十足!《第一繼承者》官方展示「上半身物理效果」稱下半身也即將實裝

兔田佩克拉直播涉及使用修改卡帶 任天堂回應hololive營運

hololiveEN神話組Gura即將於5/1畢業:能成為大家的小鯊魚是我的榮幸

《天國降臨:救贖2》沒有兒童角色?官方:想保持高自由度同時避免爭議

東映合作南非團隊製作「彌助電影」 致力展現文化的真實性

跳票變傳票?「筆電1讚折1元」喜傑獅翻臉開告300名買家:訴求訂單失效

holo Gura說明大拜拜後神隱原因:生病且身處壓力之中、新領養第二隻貓咪

《Minecraft》YouTuber阿神、羽毛撕破臉!隔空開戰掀出4年前拆夥內幕

AI太誠實!網問Grok「VTuber三毛貓中之人幾歲?」答案超衝塔笑翻網友

鈴果上幼稚園!單親媽媽VT乙夏鈴發長文感謝粉絲:謝謝大家守護我們母女

holo粉絲原創「好狐日常紀錄」精美動畫遭AI聊天軟體盜用當廣告

美國男子因《寶可夢》熾焰咆哮虎卡牌幫擋子彈撿回一命!

《鳴潮》坎特蕾拉、芙露德莉斯慘遭和諧...胖次變阿嬤內褲、褲縫痕跡消失

壓不住了?混沌藍色笨笨Senzawa突然又動了 貼文「魚」EMOJI耐人尋味

《鳴潮》角色和諧爭議後續!芙露德莉斯校正回歸、坎特蕾拉似乎以成定局

VT潤羽露西婭繪師媽媽吐苦水:創作總是被當作搞笑哏、迷因...

holo Kiara理解粉絲對「方向性不合」感困惑:成員檯面下畢業原因都很個人

《Ave Mujica》喵夢聲優米澤茜人氣突爆漲!魅力男女通吃網喊「拜託踩我」

ChatGPT新產圖潮「遊戲角色玩自己的遊戲」!崔佛偷玩《俠盜獵車手 V》被抓到

JND Studio《劍星》伊芙、迅梓1/3模型出爐!經典服裝細節全還原

急買急用!Steam實用NTR系《Love&Bitch》購入可立即解鎖全事件

台港PS Plus價格漲三成!高級會員包年要4000元 新價格4/16生效

吃完變月巴倫?必勝客合作《葬送的芙莉蓮》推出一公尺派對盒

《世紀帝國2》推出「三國演義」DLC!三大戰役+五大文明體驗魏蜀吳大戰

《Minecraft麥塊電影》北美充斥亂象!戲院變成「帶雞室」畫面十分混沌

喜傑獅「1讚折1元」反告買家...消基會籲公平會介入調查「最高可罰5000萬」

holo Kiara對想結束生命的KFP喊話:請聯絡我!讓我當你最後的避風港

日繪師岸田梅爾發現簽名板遭轉賣:我記得你是誰、這價格也太盤了吧

VT Dooby發長文自述做直播心境:完全沒打算退出、僅是在理清想法
火熱排行

「書本夾歐派」是什麼?一張圖掀起X大量二創、曬身材熱潮

VT時雨羽衣拿到台灣合作Cafe腳本 台詞垃圾、人渣連發:台灣人不太妙...

兔田佩克拉直播涉及使用修改卡帶 任天堂回應hololive營運

ALP《無道德島嶼》全新彩圖疑暗示第四話?開放性行為好做一直做

就是本人!《劍星》伊芙體模申才恩Cosplay「海之女僕」造型

ALP紳士《例行性活動》動畫推出!與臭臉同學每天早上瘋狂晨跑

就是本人!日繪師自拍分享「繪圖參考資料」絕對領域完全還原

AI太誠實!網問Grok「VTuber三毛貓中之人幾歲?」答案超衝塔笑翻網友

恐怖慎入!《沉默之丘f》最新預告釋出 實體版限定鐵盒女主角面目全非

台V真理果愚人節聯動YTR阿滴 線下見面認證果果中之人「真的不是滴妹」

疑男性用變聲器?爭議VTuber猫宮るな初配信 時不時傳不自然電子音

吃完變月巴倫?必勝客合作《葬送的芙莉蓮》推出一公尺派對盒

抽卡手遊太瑟了?《棕色塵埃2》官方公開回應「歡迎來玩!」

阿神曝杏仁咪嚕四年前早已道歉!咪嚕:感謝你的提攜

Steam體感紳士《地味人妻是能幹的阿姨喔!》和主婦做菜曹瘋狂

誠意十足!《第一繼承者》官方展示「上半身物理效果」稱下半身也即將實裝

holo雙子Mococo首次單獨開台 Fuwawa短暫現身僅能以氣音Bau Bau

台V盜圖道歉影片還開鏡頭?直播曝是上層指示炎上商法:黑粉也是粉

女角全部輸慘...《敗北女角太多了!》男主角溫水和彥立牌竟率先賣完

網紅黃小潔正式撕膜「羽衣媽媽痛車」 打造影片之收益將以抖內形式歸還

自己的流量自己賺!角落小編「橘攸奈」兼職VTuber出道 114514初配信

有警告但不多...《刺客教條:暗影者》首遇鳥居系統提示:不攀爬以示尊敬

Steam 97%極好評《彌助模擬器》上市!百元有找一小時可全破

遭惡意撞名還被攻擊...出道四年VT猫宮るな:痛苦且身心俱疲

似曾相識?holo Kiara玩《inZOI》捏臉驚呼:感覺自己像真人實況主

VTuber三毛貓與猫宮るな正面對決!對方質疑「您好像38歲了吧?」

《鳴潮》坎特蕾拉、芙露德莉斯慘遭和諧...胖次變阿嬤內褲、褲縫痕跡消失

可以養幽靈!《Minecraft》玩家可培育「快樂幽靈」 支援4人騎乘飛行

AiScReam是什麼?《LoveLive!》聲優三人限定組合 甜美聲線突掀熱潮Ado也模仿
