AI算法入駐Google搜索引擎,詞條再冷也可手到擒來!
近期,Google搜索引擎引入一種新的算法,在此基礎上,哪怕搜索詞條再冷門,用戶也可以搜到自己滿意的信息。
互聯網的能力是強大的,它幾乎囊括了一切我們日常生活中想要獲得的信息,但有時候因搜索詞條過于冷門而找不到信息時,大多數人也只能雙手攤開,表達自己的無奈。在這個bug的前提下,搜索引擎人工智能化成為目前不可阻擋的趨勢。
日前,搜索引擎巨頭Google在自家搜索引擎中引入一種名為RankBrain的基于人工智能技術開發的算法,以優化搜索引擎的網頁排名。具體是怎么操作的呢?
網頁排名操作步驟
一般來講,搜索引擎的網頁排名基本分為4個步驟:
爬行抓?。?/strong>搜索引擎蜘蛛(一個能夠在網上發現新網頁并抓文件的程序)從已知的數據庫出發,像正常用戶的瀏覽器一樣訪問網頁并抓取文件。另外,蜘蛛還會爬行跟蹤網頁中的鏈接以訪問更多的網頁,再重復以上抓取過程。
索引:這些頁面文件被蜘蛛抓取后,將會被進行分解、分析,并以巨大表格的形式存入數據庫。其中,網頁文字內容,關鍵詞出現的位置、字體、顏色、加粗、斜體等相關信息都有相應記錄。
搜索詞處理:用戶在搜索框內輸入關鍵詞并單擊“搜索”按鈕后,搜索引擎程序即對搜索詞進行處理,如中文特有的分詞處理,判斷是否需要啟動整合搜索、是否有錯別字等情況。
排序:在上述三個步驟完成后,根據搜索詞,搜索引擎將會從索引數據庫中找出所有包含搜索詞的網頁,然后根據排名算法計算出哪些網頁應該排在前面,最后按照一定格式返回到"搜索"頁面。
網頁排名影響因素
在網頁排名關鍵中,網頁的排名先后受到諸多因素的影響,就拿Google的排名公式來看:Google分數=(相關關鍵詞分數X0.3)+(域名權重X0.25)+(外鏈分數X0.25)+(用戶數據X0.1)+(內容質量分數X0.1)+(人工加分)–(自動或人工降分)。
從公式中我們可以看出,針對搜索引擎網頁排名,最為直觀的影響因素就有6個,分別是關鍵詞、域名權重、外鏈分數、用戶數據、內容質量以及人工干預,而在這6大因素下面,又有著各自其他的小因素,例如在用戶數據這一塊上,搜索引擎就要考慮到搜索引擎結果頁面(SERPs)的點擊率、用戶在網頁上呆的時間、域名或URL搜索量、訪問量及其他Google可以監測到的數據(工具條、GA之類)等4個小因素,至于這4個因素下面還有多少其他的小小因素,這就不得而知了。
RankBrian的工作原理
搜索引擎網頁排名的的基本工作原理已大概知曉,雖然搜索引擎的數據庫很強大,但仍然會有一絲瑕疵的存在,比如冷門關鍵詞的相關搜索。由于關鍵詞的邏輯排列以及固定詞匯等因素,搜索引擎給出的信息難免會有局限性,從而不能正確或全面得對關鍵詞進行理解,以給出用戶所需要的信息。
Google在搜索引擎中引入的RankBrain算法,其目的就在于優化搜索引擎的網頁排名。目前,在 Google 用來決定網頁排名的數百個因素中,RankBrain的重要性已經位居第三。
而在冷門詞條搜索方面,RankBrain算法也確實有效的給出了一個解決方案。通過RankBrian,Google可以對這部分冷門詞條進行分析和重新匹配,從而使得搜索結果更加準確。舉個例子:在 Google 中輸入“best flower shop in Los Angeles”一類冷門的搜索,RankBrian會通過語義分析和詞庫聯想,識別出搜索關鍵詞的重點意義。比如這句話,RankBrian就會判別出其與搜索頻率更高的“best LA flower shops”比較像,然后給出后者的搜索結果。
從RankBrian的工作原理可以看出,其最為關鍵的人工智能技術就是“語義理解”,只要將這部分做好,那么在將來,哪怕是再冷門、再繁瑣的搜索詞條,Google都能給予用戶最準確的信息反饋。
據悉,早在2015年年初,Google就逐漸推出了RankBrain,但也僅限于一部分搜索結果。目前,Google已將該算法應用于每天每一次的搜索中,每天提供的搜索服務多達55多億次。
最后,記得關注微信公眾號:鎂客網(im2maker),更多干貨在等你!
硬科技產業媒體
關注技術驅動創新
