AI產物過度激增！研究發現「用AI內容訓練AI」會導致模型崩潰錯誤不可回溯

2023-06-14 16:13 遊戲角落芋仔

AI（人工智慧）的時代已經來臨，在非營利組織 OpenAI 的聊天機器人 ChatGPT 開放使用 6 個月內，許多跨國頂尖企業已將 AI 相關技術導入工作中，藝術創作者也爭先恐後訓練深度學習模型。

本站曾報導 AI繪圖在動漫二創圈的爭議，遊戲公司也開始用 AI 開發新作，然而隨著越來越多人使用 AI 製作媒體內容，電腦作品也在網路上激增，且被後續的使用者拿來訓練自己的 AI。來自英國和加拿大的研究人員發現，這樣會產生「模型崩潰」的現象，成果公開在 arXiv 期刊網站，「我們發現在 AI 訓練過程，使用 AI 生成的內容來訓練模型，結果會導致不可逆轉的缺陷。」

研究人員聚焦「文字訓練文字」「圖像到圖像」兩類 AI 生成模型，得出結論：「若深度學習的資料來源是其他模型的生成內容，會導致訓練中的模型崩潰、進入退化的過程，隨著時間進展，訓練中的 AI 會忘記原初的基層資料設置……整個過程不可逆，即使就近乎理想的長期學習條件來看也是如此。」

圖／gigazine

簡單來說，長期下來，用 AI 產物訓練 AI，原本資料當中的錯誤成分會重複合併，導致深度學習模型進一步透過「錯誤的」方式感知現實，該論文的主要作者之一 Ilia Shumailov 表示，「我們驚訝地觀察到，模型崩潰發生的速度有多快，可以迅速忘記他們最初學習的大部分原始資料。」

該論文的另一位作者，劍橋大學與愛丁堡大學安全工程學系教授 Ross Anderson，在一篇討論該研究的部落格文章寫到，「就如同人類散佈在海洋中的塑膠垃圾，或是大氣中的二氧化碳，我們用『廢話』（blah）填滿網際網路，這使得那些透過網路抓取資料，訓練新模型的過程更加困難。」

他還提醒，這個現象會成為那些投入訓練 AI 的先行公司，或掌控大規模人機互動機會（如 ChatGPT）的企業的優勢，因為它們能掌控用來訓練或輸出的資料庫，「事實上，我們已經看到 AI 新創公司在 Internet Archive 尋找訓練資料庫。」

該論文研究者 Ilia Shumailov 表示，人們去感受及體驗世界所產生的原生內容，可能多少與現實世界有所差異（本質上的偏差），但 AI 更誇張，「電腦生成模型往往過度學習（overfit）流行資料（大宗的數據），時常誤解或扭曲較少的資料。」

他向外媒 VentureBeat 解釋，舉機器學習模型在 100 隻貓的圖庫進行訓練的案例，「其中 10 隻貓是藍毛，90 隻貓是黃毛，該模型意識到黃貓更普遍，但也理解成藍貓比實際上更黃，當被要求產出新內容時，結果就會提供一些綠貓來。」

「長時間下來，藍毛貓的原始特徵會在連續的訓練週期中逐漸消失，從藍色變成綠色，最後變成黃色。這種漸進的扭曲，和較為少數的數據特徵丟失，就是一種模型崩潰。為防止這種情況發生，重點是要確保少數群體在資料庫中的公平性與代表性，無論是在數量上，還是針對獨特特徵的準確描述。」

當 AI 模型生成的內容，最終污染了後續模型的訓練庫時，發生模型崩潰的情況，這聽起來滿合理的，但還會有更嚴重的影響，例如基於性別、種族或其他敏感屬性的歧視，AI 會逐步丟失之前學的到資料，根據它們強化的「信念」來曲解現實。

研究人員還發現，即使訓練模型的過程中，以「減少訓練週期的多次迭代」來避免這種情況，模型崩潰仍然會發生，因為 AI 開始產生錯誤反應，以避免資料頻繁訓練。

作為對策，該論文指出，「保留原始資料庫或人類生成資料的副本，並根據這些資料定期重新訓練，以避免與 AI 生成內容混淆。」或者，從頭開始用原始數據刷新 AI 的腦袋。

為防止 AI 模型崩潰，Shumailov 補充關鍵做法：保證 AI 訓練時準確描述出原始資料的特徵，在資料庫中區隔少數樣本並強調其代表性，「即使用 10％的人類原生數據來訓練後面產出的模型（subsequent generations），模型崩潰仍然會發生，只是不會那麼快。」

模型研究 ChatGPT 機器人 AI繪圖 OpenAI

AI產物過度激增！研究發現「用AI內容訓練AI」會導致模型崩潰 錯誤不可回溯

留言

AI產物過度激增！研究發現「用AI內容訓練AI」會導致模型崩潰錯誤不可回溯