程序員最愛的問答網站,給ChatGPT當起了“奶媽”
打不過,就加入。
Stack Overflow,一個類似知乎、Reddit的老牌網站,因專注于技術問答和社區運營,因此在全球程序員圈內備受歡迎。
然而自從ChatGPT問世以來,該網站的訪問量和搜索量都在短時間里驟降,眾多程序員開始放棄使用。
為了挽留住用戶,Stack Overflow先是封殺ChatGPT,緊接著推出自研AIGC產品,但接二連三的“自救”依然止不住流量的大幅下降。
令人驚訝的是,Stack Overflow突然在本周一宣布與OpenAI簽訂協議,為其提供數據。
有意思的是,Stack Overflow不僅與OpenAI合作,其豐富的數據也被谷歌的Gemini模型買走。
程序員最大的問答網站,擋不住AI
在程序員圈里,Stack Overflow地位有多高?
簡單點說,作為一家老牌問答網站,Stack Overflow已經成立了16年、最高時每月都有2億臺主機訪問。
無論一線大廠技術大佬,還是剛入門的計算機小白,只要提出了編程問題,總會有網友挺身而出,提供思路,甚至直接給出最優解的答案。
正是因為有著龐大的數據,Stack Overflow雖然名氣比不上Reddit,但也算是圈內人的必備網站。
但事情在ChatGPT橫空出世后,開始朝著衰落的方向發展。
在 ChatGPT上線后,迅速有網友發現其出色的代碼生成能力,因此“ChatGPT可以取代Google、Stack Overflow”的言論吸引了大批程序員的目光。
然而令人沒想到的是,僅僅上線5天后,Stack Overflow反手就把 ChatGPT 給封殺了。
原因是ChatGPT生成的代碼錯得過于離譜,因此Stack Overflow宣布這些生成垃圾答案的賬號都會被封號。
有意思的是,Stack Overflow團隊發現,很多用來訓練AI模型的數據,其實就是來自Stack Overflow。
如果放任AI機器人生成垃圾回答,那不就等于搬起石頭砸自己的腳嗎?
雖然Stack Overflow的表態很明確,廣大程序員們也能理解,但奈何ChatGPT的體驗實在是真香!
最終,面對AI的強勢來襲,Stack Overflow的流量也是越來越差,到了2023年6月,瀏覽量幾乎已經是腰斬。
為了止住頹勢,Stack Overflow 開始是一系列措施。
先是在7月,技術團隊利用自家5800萬個問題和答案的數據庫,做了一款名為「OverflowAI」的AI 工具,其功能主要圍繞著編程,但沒有掀起太大的水花。
到了10月,公司CEO宣布解雇了約28%的員工,通過縮減營銷預算的方式,為 AI工具持續輸血。
不過由于OverflowAI還處于初級測試階段,面對實力強勁且不斷進化的ChatGPT,OverflowAI能做的僅僅是拖延Stack Overflow衰落的速度。
賣數據,真香
在面對ChatGPT的威脅時,Stack Overflow一開始選擇使用“防御”的姿態。
但殊不知,這些公開的互聯網數據早已被OpenAI等科技公司用“爬蟲”等手段進行搜刮,自己不僅要面臨用戶的流失,更要面臨數據的流失。
不過畢竟日訪問量擺在那里,Stack Overflow手握著大量優質的數據,倒也成為一筆可以交易的資源。
自《紐約時報》帶頭起訴OpenAI后,越來越多的新聞媒體和門戶網站加入到討伐OpenAI的隊伍中。
在面對版權問題時,科技公司們只能乖乖掏錢為訓練數據付費,并承諾不會使用私人數據。
Reddit、Youtube、ShutterStock、Photobucket等網站都是數據交易的受益者,手握大把優質的訓練材料,科技巨頭們花起錢來也是毫不吝嗇。
相比之下,Stack Overflow的數據同樣出色,甚至比Reddit這樣的綜合性網站更加專業。
因此,Stack Overflow CEO也開始學會了向各大科技公司推銷自家數據,其中就包括了Google的 Gemini 模型。
或許正是看到了科技公司對于優質數據的渴望,讓高層選擇來了一次360度的態度大轉變,既然用戶是回不來了,那至少把錢賺到口袋里。
值得一提的是,Stack Overflow當時強調,該協議并不具有排他性,這就意味著任何科技公司都可以購買同樣的數據,剩下就看哪家訓練得更好。
據報道稱,Stack Overflow 的技術內容將與 OpenAI 的 GPT-4 等模型相結合,通過OverflowAPI訪問,未來開發者可以直接通過 OpenAI獲得可靠且經過驗證的數據,并幫助他們快速找到解決復雜問題的方法。
而Stack Overflow 也能從開發社區收集反饋,確保 AI 開發工具持續改進。
簡單點就是說,Stack Overflow與 OpenAI來了一次技術和數據的互換,前者提高了AI能力,后者得到了可靠的數據,兩者雙贏。
據悉,此次合作將帶來的第一組集成功能和能力,預計將于 2024 年上半年發布,這也說明雙方的合作其實已經進行了很久。
隱私還是大問題?
目前,越來越多的社區網站開始加入到AI訓練中,包括百度貼吧的“弱智吧”,在一次研究里顯現出不俗的數據訓練效果,一度沖上熱搜。
對于訪問量不斷下降的傳統內容網站們,優質的數據確實是一個可以長期進行的“副業”。
另外,AI固然很香,但不是沒有缺點。
自Stack Overflow開始轉向開發AI能力后,開發者社區的一些成員對這一變化表示反對,他們對人工智能生成的信息的有效性、以及數據隱私表示擔憂。
也有專家指出,AI會導致更多錯誤代碼被推送到代碼庫中,甚至放大軟件項目中現有的漏洞和安全問題。
但對于“饑渴”的AI公司們,不斷膨脹的數據消耗問題已經足夠頭疼。
而網站的幫助,剛好可以為自己分擔一些風險。
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新
