科技巨頭狂撒千億美元 “買照片”,只為訓練AI模型?

jh 1年前 (2024-04-09)

高質量的數據,越來越值錢。

你能想象,那些被遺忘在網盤的陳年老圖,有朝一日能價值千金?

就在最近,路透社報道稱,蘋果公司正與圖像托管網站Photobucket協商,希望得到這家公司近130億張照片、視頻組成的龐大圖像庫,并以此來訓練AI模型。

蘋果不是這家網站的唯一買家,其他硅谷大廠們都在尋求與之達成協議。而這些巨頭們也毫不吝嗇,甚至愿意掏出數十億美元的真金白銀購買這些素材。

不只是Photobucket,Reddit、Youtube等知名網站都成了科技巨頭們的瘋搶目標。

蘋果為訓練AI買圖片,網友擔憂隱私

Photobucket是一個提供影像寄存、視頻寄存、幻燈片制作與照片分享服務網站,成立于2003年。在當時,用戶把這個網站當作個人相冊,與功能與現在流行的在線相冊非常相似。

在巔峰期,該網站曾擁有7000萬用戶。而到2007年,Photobucket就聲稱已有超過28億張圖像上傳到其網站。不過隨著越來越多的功能更強大的在線相冊App出現之后,這種網站式的在線相冊也逐漸失去了熱度。

不過畢竟是一家成立二十多年的網站,別的不說,數據是真的多,130億張圖片與視頻,足夠AI模型消化很久。

據悉,蘋果購買的圖片的主要目的就是提高生成式AI的。

除此之外,蘋果公司在早些時候與另一家圖片素材網站Shutterstock達成了數百萬張圖片的授權協議,據悉這筆交易的價值在2500萬美元到5000萬美元之間。

隨著今年6月份WWDC大會日益臨近,每個人都在期待蘋果公司能帶來“令人驚嘆”的AI功能。

但和上筆交易不同,不少網友開始為了隱私擔心。有人評論表示,Photobucket的圖片來源都是基于網友的“托管,這就意外著這些圖片雖然已經是陳年老圖,但仍屬于用戶的個人秘密。

而Shutterstock的數據大多是免版稅的圖片、矢量圖和插圖庫,包括影片剪輯以及音樂曲目,本身就可以授權給用戶使用。這么一對比,網友對于Photobucket的數據隱私安全問題也可以理解了。

除了涉及隱私以外,不少網友還對這些庫存照片的質量提出了質疑。如果給AI喂食這些本來就帶有錯誤的圖片,那么是否會生成質量更低的圖片呢?

總之,就蘋果購買Photobucket圖片的行為,大多數網友并不贊同。

但即使冒著泄露隱私的風險,蘋果和其他公司們還是得“鋌而走險”搞來這些數據。主要原因還是高質量的互聯網數據,可能沒幾年就要耗盡了。

其實早在多年前,各大科技巨頭就已經碰到訓練語料缺失的瓶頸。

據《紐約時報》報道,OpenAI在訓練GPT-4時,就曾遇到英文文本資料缺失的情況。

為了處理這個問題,OpenAI推出一款名為Whisper語音識別工具,用來轉錄谷歌旗下視頻平臺Youtube的視頻音頻,生成大量的對話文本。

據報道稱,這款工具以開源的名義轉錄了超過一百萬小時的Youtube視頻,實際上已經違反了Youtube的隱私規則,而這些資料也成為ChatGPT的基礎。

這并不是OpenAI第一次因為偷扒數據犯錯。包括《紐約時報》在內,多家數字新聞媒體對OpenAI提起版權侵權訴訟,認為他們的數千篇報道被OpenAI用來訓練ChatGPT。

當然,通過“爬蟲”等手段搜刮訓練數據的科技公司不止OpenAI這一家,“受害者”谷歌也曾通過修改服務條款的方式,將“使用公開信息訓練AI模型”偷偷寫進隱私細則中,從而允許工程師們利用公開的文檔、在線資料等開發AI產品。

不過隨著OpenAI在版權問題上越陷越深,其他科技巨頭也只能乖乖掏錢為訓練數據付費。

至少比起互聯網上免費抓取的數據,Photobucket近130億的數據量還是相對來說質量更高點。

花錢買數據,或許還不夠

可怕的是,即便是130億的數據量,也可能喂不飽現在的AI的模型。

研究機構Epoch直白地表示,現在科技公司使用數據的速度已經超過數據生產的速度,這些公司最快會在2026年就耗盡互聯網上的高質量數據。

有數據統計,在2020年11月發布的GPT-3上,使用了3000億個Token的訓練數據。而到了2024年,谷歌PaLM 2的訓練數據量則達到3.6萬億個Token。

數據量是一回事,數據的質量更是直接影響AI大模型的生成能力。正如網友所擔憂的那樣,低質量的數據甚至可能讓AI陷入不可逆轉的方向。

面對這樣的問題,OpenAI開始嘗試使用合成數據(AI生成的數據)來訓練AI。這樣既可以減少對受版權保護數據的依賴,同時也能訓練出更強大的結果。

對此OpenAI和一系列機構開始研究使用兩個不同的模型來生成更有用、更可靠的合成數據,其中一個模型用來生成數據,另一個則用來對生成的數據進行審核。

不只是OpenAI,英偉達很早就在用合成數據彌補現實世界的數據。在2021年11月,英偉達對外推出合成數據生成引擎Omniverse Replicator。

英偉達將其描述為“用于生成具有基本事實的合成數據以訓練 AI 網絡的引擎”,其作用就是用來訓練AI。

此產品推出后,由該引擎生成的合成數據在自動駕駛、機器人等多個場景里都得到了驗證,因此英偉達也在近些年希望將其推廣到更多領域,包括聊天機器人。

然而,合成數據在工業場景里的成功案例,并不代表在其他領域都能遵循物理規律。

有時候AI連真實圖片都無法理解,更不要說理解二次生成的圖片了。

最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!

鎂客網


科技 | 人文 | 行業

微信ID:im2maker
長按識別二維碼關注

硬科技產業媒體

關注技術驅動創新

分享到