深度學習驅動智能搜索引擎,RankBrain革了SEO的命
去年開始,谷歌使用以深度學習為基礎的人工智能核心搜索算法RankBrain,用越來越“類人化”的算法個性定制每個搜索結果。
【編者按】本文由新智元編譯,來源:techcrunch,作者:John Rampton,譯者:朱煥 胡祥杰
【導讀】想在谷歌或百度等搜索結果中排名靠前,除了廣告(給錢),你還可以選擇SEO(搜索引擎優化):讓網站符合算法的規則,提升在搜索引擎內的自然排名。但去年開始,谷歌使用以深度學習為基礎的人工智能核心搜索算法RankBrain,本文認為這種越來越“類人化”的算法個性定制每個搜索結果,每個網站的排名都變得看似更加隨機,在搜索引擎中“鉆空子”難度將越來越大,SEO將持續極端技術化,只有把握好分析和大數據做SEO,才有望獲得巨大收益。
RankBrain還是一種弱人工智能
如今,每個人都聽說過谷歌的 RankBrain 算法了。這個新型人工智能機器學習算法是從加州山景城谷歌總部誕生出的最新、最重大的算法。然而,讀者中的許多人大概還沒意識到,RankBrain 將引起 SEO(搜索引擎優化)行業的快速轉變。在本文中,我將帶你去了解一些鮮明的事例,讓你明白 SEO 的不少舊規則都不再適用了,并讓你知道,要想領先于潮流以繼續為你的業務提供 SEO 服務,你需要做什么。
那么,什么是人工智能呢?
一般來說有三種類型的人工智能:
1,弱人工智能: 這是為某個特殊目的服務的人工智能(例如,用于擊敗國際象棋世界冠軍的人工智能)
2,強人工智能:這是那種任何事情都能做的人工智能。一旦人工智能能像人類一樣行動,我們就認為它具有了強人工智能。
3,超人工智能(Artificial Superintelligence):人工智能在做所有事情時都具有極高的水平(例如,具有超越單個人類的水平)。
當我們談論谷歌的 RankBrain,以及談論谷歌目前正在運行的那些機器學習算法時,我們談的是弱人工智能。實際上,弱人工智能已經存在了一段時間了。你是否想過你的電子郵件服務中的垃圾過濾器是怎么工作的?是的,那就是弱人工智能的一種體現。我最喜歡的弱人工智能項目還有:谷歌翻譯,IBM Watson,亞馬遜的自動產品推薦,自動駕駛汽車以及我們親愛的谷歌 RankBrain.
在弱人工智能界,有多種不同的實現方式。Pedro Domingos 曾在 MasterAlgorithm 一書中明確指出,那些試圖實現完美人工智能的數據科學家可以被分為五個“派別”,它們是:
• 符號主義者
• 聯結主義者
• 進化主義者
• 貝葉斯主義者
• 行為類比主義者(Analogizers)
谷歌的 RankBrain 屬于聯結主義派。聯結主義者相信,我們所有的知識都被編碼為我們大腦中的神經元聯結。而 RankBrain 使用的具體方法是一種被專家稱為“反向傳播”的技術,這一路方法后來也被人們稱之為深度學習。
聯結主義者宣稱,該方法能從原始數據中學習任何東西,因此它最終能夠實現知識發現的自動化。谷歌顯然也相信這一點。2014年 1月 26日,谷歌宣布收購 深度學習公司Deepmind,顯露了在這領域的雄心。
因此,當我們談論 RankBrain 時,我們可以說它使用的是弱人工智能中的深度學習技術。那么,該領域目前發展如何呢?以及更重要的,它正在如何改變 SEO 業務呢?
2025 年左右實現強人工智能?
WaitButWhy.com 的 Tim Urban 在其文章《AI 革命: 通向超級人工智能之路》中比任何人都更清楚地解釋了這一技術的增長。
當你回顧歷史時,該技術的進展是這樣的:
不過,正如 Urban 所指出的,在現實中,你其實看不見你自己位置的右側(即你的未來)。因此,當你站在圖表的當下位置是,這是你實際感受到的樣子:
這一圖表所展現是的,當人類試圖預測歷史時,他們常常會低估未來的趨勢。這是因為他們總是去看位于圖的左側的過去,而不是位于圖的右側的未來。
然而,現實是,隨著時間演化,人類進步正在越來越快。Ray Kurzweil 將這稱之為“加速循環定律”。Kurzweil 的理論背后的科學理由是:與過去的不夠先進的社會相比,未來的更先進的社會有能力以更快的速度進步——因為那時的社會更先進。這一推理也可以運用到人工智能以及技術進步的增長速度方面。
在計算資源方面,我們已經看到了這一點。下面的圖標可以讓你看看,由于“加速循環定律”,事情進展得有多快:
正如你所看到的和我們都直觀感受到的,處理器和計算機技術的增長都獲益于加速循環定律。另一件令人震驚的事是:未來的某一天,一臺簡易電腦的處理能力將不僅超過單個的人,而且超過所有人類的總和。
實際上,看起來我們將在 2025 年左右實現強人工智能。技術顯然正在越來越快地擴張,這想必會讓我們大多數人感到驚訝。
從傻瓜到愛因斯坦
正如我上面解釋的,谷歌的 RankBrain 只是弱人工智能的一個例子。這意味著,RankBrain 可以在某個特定領域中比一個人做得更好,但也僅此而已:它只是一種相對較弱形式的人工智能。然而,哪怕是這種“弱”人工智能,也會飛快地變成一種我們不知該怎么對付的東西。
你可以清楚地看到,谷歌的 RankBrain 盡管在特定任務上極其聰明,但在通用的智力尺度上仍然是失敗的。然而,如果我們把加速循環定律應用在人工智能領域,將會發生什么呢?Tim Urban 進行了這樣一個思想實驗:
“當人工智能的智力越來越接近我們時,我們會看到它變得越來越聰明,像一個動物一樣。之后,它將達到人類的最低水平——用 Nick Bostrom 的話說,是村里的傻瓜的水平——我們會說‘ 哇奧,它看起來像個人類傻瓜,真可愛!' 然而重要的是,在所有智力水平構成的譜系中,從傻瓜到愛因斯坦的所有人類都只占了一個很小的區域——因此,在人工智能實現‘村中傻瓜’水平并具有強人工智能之后,它將突然變得比愛因斯坦更聰明,而我們不會知道那將是什么樣。”
那么,這對 SEO 業務以及我們目前的人工智能來說意味著什么呢?
在我們去預測未來之前,讓我們先看看 RankBrain 已經怎樣改變了 SEO。我與卡耐基梅隆大學校友、Market Brew (一家為 Fortune 500 強的 SEO 團隊提供搜索引擎模型的公司)的 CTO、聯合創始人 Scott Stouffer 就這一問題進行了交流。作為一名搜索工程師,Stouffer 對過去幾十年的發展具有一個大部分人都不具有的獨特視角。
谷歌開始把主要精力放在人工智能后,SEO行業應如何應對?下面是他的一些建議。
回歸分析是有嚴重缺陷
這是 SEO 行業中當前最大的缺陷。每當谷歌的排名發生巨大變化時,都會出現許多“大師”——來自本行業知名公司的一些數據科學家和 CTO 會宣稱,他們知道為什么谷歌最近排名指數發生了變化。其實,他們最常用的方法是仔細分析幾個月以來的排名數據,并去了解在所有類型的網站中排名情況是如何改變的。
按照目前的回歸分析方法,這些數據科學家會指出一些受到了(正面或負面)影響的特定類型的網站,并十分肯定地認為谷歌最近的算法轉變是針對這些網站共有的某類算法(內容或外鏈)而出現的。
然而,如今谷歌已經不這么干了。谷歌的 RankBrain 采用機器學習/深度學習方法,它的工作方式與過去十分不一樣。
其實,谷歌內部已經存在許多核心算法。RankBrain 的任務是去學習這些核心算法以何種方式混合起來才能最佳地應用到每種類型的搜索結果中去。例如,在某些搜索結果中,RankBrain 可能學習到最關鍵的搜索信號是這些搜索結果中的元標題(Meta Title)。
為那些元標題匹配算法賦予更多的權重,這可能會帶來更好的搜索體驗。但在另一個搜索結果中,同樣的元標題信號與良好的搜索體驗之間可能卻是負相關。因此,在那一類搜索中,諸如 PageRank 之類的其他算法可能會被賦予更多權重。
這意味著,在每個搜索結果中,谷歌都使用了完全不同的算法混合方式。現在,你就會明白,為什么“在缺乏搜索結果語境的情況下,對所有網站進行回歸分析”這種方法是有嚴重缺陷的。
出于這些原因,現在的回歸分析必須根據每一次的特定搜索來進行。Stouffer 最近談到了一種可以用來測量谷歌算法改變程度的搜索模型方法。
首先,你可以截一張圖,以確定搜索引擎模型在過去為某個具體關鍵詞搜索而被校準到了什么程度。然后,當探測到排名方式發生了改變之后,你可以對搜索引擎模型進行重新校準,以展示出這兩種搜索引擎模型設置之間的差異。通過這一方法,在經歷了排名方式變化之后,你就可以看出哪些特定算法被增加或減少了權重。
知道了這一點后,我們就可以聚焦于如何提升網站對這些特定搜索結果的 SEO。但同樣的方法并不適用于其他搜索結果。這是因為 RankBrain 是在搜索結果(或關鍵詞)的水平上進行操作的。確切地說,RankBrain為每個搜索結果都進行算法的個性定制。
把握細分領域,避免錯誤分類
谷歌還發現,他們可以讓 RankBrain 這個新型深度學習系統學會,“好”網站長什么樣,“壞”網站長什么樣。就像他們為每一個搜索結果進行不同的算法權重賦予一樣,他們也發現每個垂直領域都有不同的“好”網站和“壞”網站實例。這無疑是因為不同的垂直領域具有不同的客戶關系管理方式,不同的模板和數據結構類型。
當 RankBrain 運行時,它實際上在學習每種垂直環境中的正確“設定”是什么樣的。你或許已經猜到,這些正確設定是什么完全取決于該設定所處于的垂直領域是什么樣的。例如,在醫療產業中,谷歌知道像 WebMD.com 這樣的網站聲譽良好,并會把這樣的網站放在其搜索索引的頂部位置。而任何結構上與 WebMD 網站相似的網站也會被歸類到“好”網站的類別中。類似的,那些與已知的醫療領域垃圾網站結構相似的網站則會被歸為“壞”網站的類別。
由于Rankbrain 使用深度學習能力同時對“好”網站和“壞”網站進行歸類,如果你的網站中包含許多不同產業的信息,那將會怎樣呢?
首先,我們必須再多討論一下深度學習是如何工作的。在把所有網站都分為“好”“壞”兩組之前,RankBrain 必須首先決定每個網站分別屬于什么類別。像 Nike.com 和 WebMD.com 這樣的網站很好歸類。盡管這兩個網站上都有很多不同的子類別,但它們都具有單一的一般類別。這類網站很容易被分類。
然而,那些包含了許多不同類別的網站呢?這類網站中的一個很好的例子是那些 How-To 型網站。這些網站通常擁有許多通用類別。面臨這些網站,深度學習方法就會崩潰。那么,在面對這些網站時,谷歌使用什么樣的訓練數據呢?答案是:它可能是使用看起來隨機的數據。它可能從眾多類別中選擇這個類別,也可能選擇另一個類別。對于像 Wikipedia 這樣的著名網站來說,谷歌可能完全不采取任何分類過程,以確保深度學習過程不會打擾用戶既有的搜索體驗(因為維基這樣的大網站不太可能產生壞網頁。)
然而,對那些不那么知名的網站來說,會發生什么呢?答案是,“誰知道呢?”或許,這個機器學習過程能自動地對每個網站進行分類,在此之后才會把它與其他網站進行比較。一個 How-To 型網站也許看起來和 WebMed 網站一個樣。
如果系統的分類過程認為這個網站是關于鞋的,那么它就會把該網站與 Nike 網站結構進行比較,而不是與 WebMD 進行比較。也許,該網站的結構很像一家鞋類垃圾網站,而不像聲譽良好的 WebMD 網站;如果是這樣,這個內容過于一般化的網站就會被打上“垃圾”的標簽。因此,如果這個 How-To 型網站具有不同的子領域,最好讓每個子領域的樣子都類似于該領域的最好網站。要把握住這些細分領域。
能辨認“好壞”的 RankBrain
讓我們再看看這將如何影響外鏈?;谏厦嫣岬降姆诸愡^程,下面這一點將變得前所未有的重要:堅持只在你的鄰近領域中進行外鏈。因為 RankBrain 能夠知道,你的某些外鏈是不是與你所在的垂直領域同類網站的外鏈特征不同。
讓我們仍使用剛才的例子。一家公司有一個關于鞋的網站。我們知道 RankBrain 的深度學習過程會試圖把該網站的各個方面與鞋業領域的最佳和最差網站進行比較。因此,該網站的外鏈特征也將用來與同類的最佳和最差網站的外鏈特征進行比較。
假設,一個典型的聲譽良好的鞋業網站擁有一下三個鄰近領域的外鏈:
運動
健康
時尚
現在,假設該公司的 SEO 團隊決定從這三個鄰近領域中購買外鏈;此外,由于公司 CEO 和汽車產業有一些聯系,他們決定使用汽車網站的免費外鏈??雌饋磉@很“聰明”: 他們使用了交叉營銷方法,在汽車網站上展示“租車就送免費鞋”的頁面,而這些頁面將導向該公司的新鞋頁面??雌饋砗懿诲e,不是嗎?
然而,RankBrain 會發現這一點,并發現該網站的外鏈特征與鞋業好網站的特征十分不同。更糟的是,它發現許多鞋業垃圾網站也擁有來自汽車網站的外鏈特征。
這樣,盡管 RankBrain 并不知道什么是“正確”的外鏈特征,它卻察覺出了對它的搜索引擎結果而言什么是“好”網站,什么是“壞”網站。這家鞋業網站將會被標記為“壞”,來自汽車網站的免費外鏈帶來的將是訪問量的暴跌。
你沒法再鉆空子了
從我們前面對加速循環定律的討論中可以知道,RankBrain和其他人工智能未來都將會超越人腦。此刻,沒有人知道這一技術將把我們帶向何方。
不過,有一些事情是確定的:
每個有競爭力的關鍵詞環境都需要被單獨檢驗。
大多數網站都需要把握好對細分領域的處理。
每家網站都應該模仿該領域中聲譽優良的頂級網站的結構和組成。
在某種意義上,深度學習的方法讓 SEO 業務變得更簡單了。當你知道 RankBrain 等類似技術已經具有了與人類旗鼓相當的能力時,你應該遵循的原則就變得很清楚了:你沒法再鉆空子了。
在另一種意義上,事情變得更難了。SEO 領域將繼續變得極端技術化。分析和大數據是今日的王道,那些對這些方法尚不熟悉的 SEO 必須盡快趕上。那些已經擁有這些能力的 SEO 有希望未來獲得巨大收益。
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新
