人工智能模型崩潰的潛在威脅:對未來意味著什麽
在最近關于人工智能(AI)的討論中,出現了一個令人不安的概念:“模型崩潰”。
這個術語描述了一種假設場景,即由于人工智能生成的數據激增,人工智能系統的性能下降。
這一概念在2023年獲得了關注,並成爲人們關注的焦點,它表明,隨著人工智能創造的內容變得越來越普遍,它最終可能會破壞未來人工智能模型的質量和有效性。
現代人工智能系統嚴重依賴機器學習,它們的“智能”來自對大量高質量數據的分析。
OpenAI、谷歌、Meta和英偉達等主要科技公司不斷從互聯網上收集數tb的數據來訓練這些系統。
然而,隨著生成式人工智能工具變得越來越普遍,人工智能本身産生的內容也越來越多。
這就提出了一個問題:人工智能系統能否僅根據人工智能生成的數據進行有效訓練?
2023年,研究人員探索了將人工智能生成的數據專門用于訓練目的的可能性。
這種方法的吸引力很明顯:人工智能創建的內容獲取成本更低,而且沒有與人類數據相關的許多道德和法律問題。
然而,初步研究結果表明,僅僅依賴這些數據可能會導致“遞歸訓練”,由于數據質量和多樣性的惡化,每個新的人工智能模型變得越來越不有效。
這個問題類似于數字形式的近親繁殖,導致模型隨著時間的推移可能變得不那麽有用、不那麽准確、不那麽具有代表性。
通過從訓練數據集中過濾掉人工智能生成的內容來降低這種風險的努力已經在進行中。
科技公司在清理和過濾數據上花費了大量資源,通常會丟棄高達90%的最初收集的數據。
盡管做出了這些努力,但區分人類和人工智能生成的內容正變得越來越困難。
隨著合成數據比例的增長,過濾將變得更加複雜和低效,從而更難避免模型崩潰的陷阱。
一個實際的解決方案可能是確保人類和人工智能生成的數據之間的平衡。
目前大多數研究都假設人工合成數據完全取代人類數據。
然而,在現實中,人類和人工智能生成的數據可能共存,這可能會減輕完全崩潰的風險。
此外,預計未來將以各種各樣的生成式人工智能平台爲特色,而不是單一的主導模式,爲潛在的崩潰提供額外的彈性。
盡管有這些有希望的發展,但還有其他與人工智能生成內容的過度生産有關的擔憂。
研究表明,在引入ChatGPT等人工智能工具後,StackOverflow等平台上的人類活動顯著減少。
這表明,雖然人工智能可以提高生産力,但它也可能減少一些數字社區中有意義的人際互動。
此外,人工智能內容農場的興起可能會導致低質量、充斥點擊誘餌的材料的增加,從而使用戶難以找到有價值的內容。
人工智能生成內容的廣泛使用也有削弱社會文化多樣性的風險。
由于人工智能模型生成的內容缺乏人類的細微差別,因此存在文化同質化的危險,不同的觀點和聲音被邊緣化。
爲了解決這些問題,專家們主張實施諸如對人工智能生成的內容進行水印等措施,以確保透明度並保持人工創建數據的完整性。
總之,盡管人工智能模型災難性崩潰的威脅是一個嚴重的問題,但它不一定是迫在眉睫的災難。
通過保持人類和人工智能生成的數據之間的平衡,促進人工智能平台的多樣化生態系統,並解決人工智能的社會文化影響,該行業可以朝著更加可持續和包容的人工智能未來努力。
支持正在進行的研究和監管以保護所有用戶的數字環境仍然至關重要。
資料來源:https://www.abc.net.au/news/2024-08-25/what-is-model-collapse-rumours-about-ai-doom/104263344?utm_campaign=abc_news_web&utm_content=link&utm_medium=content_shared&utm_source=abc_news_web