程序員最愛的問答網站,給ChatGPT當起了“奶媽”

jh 1年前 (2024-05-07)

打不過,就加入。

Stack Overflow,一個類似知乎、Reddit的老牌網站,因專注于技術問答和社區運營,因此在全球程序員圈內備受歡迎。

然而自從ChatGPT問世以來,該網站的訪問量和搜索量都在短時間里驟降,眾多程序員開始放棄使用。

為了挽留住用戶,Stack Overflow先是封殺ChatGPT,緊接著推出自研AIGC產品,但接二連三的“自救”依然止不住流量的大幅下降。

令人驚訝的是,Stack Overflow突然在本周一宣布與OpenAI簽訂協議,為其提供數據。

有意思的是,Stack Overflow不僅與OpenAI合作,其豐富的數據也被谷歌的Gemini模型買走。

程序員最大的問答網站,擋不住AI

在程序員圈里,Stack Overflow地位有多高?

簡單點說,作為一家老牌問答網站,Stack Overflow已經成立了16年、最高時每月都有2億臺主機訪問。

無論一線大廠技術大佬,還是剛入門的計算機小白,只要提出了編程問題,總會有網友挺身而出,提供思路,甚至直接給出最優解的答案。

正是因為有著龐大的數據,Stack Overflow雖然名氣比不上Reddit,但也算是圈內人的必備網站。

但事情在ChatGPT橫空出世后,開始朝著衰落的方向發展。

在 ChatGPT上線后,迅速有網友發現其出色的代碼生成能力,因此“ChatGPT可以取代Google、Stack Overflow”的言論吸引了大批程序員的目光。

然而令人沒想到的是,僅僅上線5天后,Stack Overflow反手就把 ChatGPT 給封殺了。

原因是ChatGPT生成的代碼錯得過于離譜,因此Stack Overflow宣布這些生成垃圾答案的賬號都會被封號。

有意思的是,Stack Overflow團隊發現,很多用來訓練AI模型的數據,其實就是來自Stack Overflow。

如果放任AI機器人生成垃圾回答,那不就等于搬起石頭砸自己的腳嗎?

雖然Stack Overflow的表態很明確,廣大程序員們也能理解,但奈何ChatGPT的體驗實在是真香!

最終,面對AI的強勢來襲,Stack Overflow的流量也是越來越差,到了2023年6月,瀏覽量幾乎已經是腰斬。

為了止住頹勢,Stack Overflow 開始是一系列措施。

先是在7月,技術團隊利用自家5800萬個問題和答案的數據庫,做了一款名為「OverflowAI」的AI 工具,其功能主要圍繞著編程,但沒有掀起太大的水花。

到了10月,公司CEO宣布解雇了約28%的員工,通過縮減營銷預算的方式,為 AI工具持續輸血。

不過由于OverflowAI還處于初級測試階段,面對實力強勁且不斷進化的ChatGPT,OverflowAI能做的僅僅是拖延Stack Overflow衰落的速度。

賣數據,真香

在面對ChatGPT的威脅時,Stack Overflow一開始選擇使用“防御”的姿態。

但殊不知,這些公開的互聯網數據早已被OpenAI等科技公司用“爬蟲”等手段進行搜刮,自己不僅要面臨用戶的流失,更要面臨數據的流失。

不過畢竟日訪問量擺在那里,Stack Overflow手握著大量優質的數據,倒也成為一筆可以交易的資源。

自《紐約時報》帶頭起訴OpenAI后,越來越多的新聞媒體和門戶網站加入到討伐OpenAI的隊伍中。

在面對版權問題時,科技公司們只能乖乖掏錢為訓練數據付費,并承諾不會使用私人數據。

Reddit、Youtube、ShutterStock、Photobucket等網站都是數據交易的受益者,手握大把優質的訓練材料,科技巨頭們花起錢來也是毫不吝嗇。

相比之下,Stack Overflow的數據同樣出色,甚至比Reddit這樣的綜合性網站更加專業。

因此,Stack Overflow CEO也開始學會了向各大科技公司推銷自家數據,其中就包括了Google的 Gemini 模型。

或許正是看到了科技公司對于優質數據的渴望,讓高層選擇來了一次360度的態度大轉變,既然用戶是回不來了,那至少把錢賺到口袋里。

值得一提的是,Stack Overflow當時強調,該協議并不具有排他性,這就意味著任何科技公司都可以購買同樣的數據,剩下就看哪家訓練得更好。

據報道稱,Stack Overflow 的技術內容將與 OpenAI 的 GPT-4 等模型相結合,通過OverflowAPI訪問,未來開發者可以直接通過 OpenAI獲得可靠且經過驗證的數據,并幫助他們快速找到解決復雜問題的方法。

而Stack Overflow 也能從開發社區收集反饋,確保 AI 開發工具持續改進。

簡單點就是說,Stack Overflow與 OpenAI來了一次技術和數據的互換,前者提高了AI能力,后者得到了可靠的數據,兩者雙贏。

據悉,此次合作將帶來的第一組集成功能和能力,預計將于 2024 年上半年發布,這也說明雙方的合作其實已經進行了很久。

隱私還是大問題?

目前,越來越多的社區網站開始加入到AI訓練中,包括百度貼吧的“弱智吧”,在一次研究里顯現出不俗的數據訓練效果,一度沖上熱搜。

對于訪問量不斷下降的傳統內容網站們,優質的數據確實是一個可以長期進行的“副業”。

另外,AI固然很香,但不是沒有缺點。

自Stack Overflow開始轉向開發AI能力后,開發者社區的一些成員對這一變化表示反對,他們對人工智能生成的信息的有效性、以及數據隱私表示擔憂。

也有專家指出,AI會導致更多錯誤代碼被推送到代碼庫中,甚至放大軟件項目中現有的漏和安全問題。

但對于“饑渴”的AI公司們,不斷膨脹的數據消耗問題已經足夠頭疼。

而網站的幫助,剛好可以為自己分擔一些風險。

最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!

鎂客網


科技 | 人文 | 行業

微信ID:im2maker
長按識別二維碼關注

硬科技產業媒體

關注技術驅動創新

分享到