随着“眼球經濟”席卷互聯網,成千上萬的資金迅速流向最能(néng)吸引浏覽着眼球的搜索引擎市場。有(yǒu)大量調查顯示搜索引擎市場正處在高速發展時期,成為(wèi)了未來幾年内最具(jù)發展潛力的産(chǎn)業之一。随着Google、百度、中(zhōng)國(guó)搜索等各具(jù)特色的搜索引擎逐漸成為(wèi)人們最常用(yòng)的網絡工(gōng)具(jù),企業對搜索引擎的注意力也從“觀察”升級為(wèi)“動武”。
随着市場容量和使用(yòng)者人數的不斷激增,如何完善搜索功能(néng)使之更加公(gōng)平、公(gōng)開、标準和人性化也就随之成為(wèi)了一個備受關注的話題。但是有(yǒu)一個矛盾體(tǐ)在這其中(zhōng)不斷的顯現出來:收費可(kě)以為(wèi)搜索引擎公(gōng)司帶來利潤,但同時會降低訪問者的體(tǐ)驗滿意度。如何權衡金錢和用(yòng)戶需求之間的天平呢(ne)?
Google成功的秘密
到2004年為(wèi)止,Google( http://www.google.com )已經連續兩年被評為(wèi)全球第一品牌,Google成立僅五年時間,最初隻是兩個斯坦福大學(xué)學(xué)生的研究項目。這不能(néng)不說是一個奇迹,就像比爾?蓋茨創制奇迹一樣。比爾?蓋茨能(néng)創造奇迹,是因為(wèi)他(tā)看準了個人計算機軟件市場的趨勢,所以創建的公(gōng)司叫Microsoft(微軟):Micro(小(xiǎo))Soft(軟件)。那麽Google呢(ne)?在Google出來之前已經有(yǒu)一些很(hěn)有(yǒu)成就的搜索引擎公(gōng)司,其實力也很(hěn)強,看來不隻是Google看見了搜索的趨勢。Google究竟成功的秘密在哪兒?
Google的成功有(yǒu)許多(duō)因素,最重要的是Google對搜索結果的排序比其它搜索引擎都要好。Google保證讓絕大部分(fēn)用(yòng)搜索的人,都能(néng)在搜索結果的第一頁(yè)找到他(tā)想要的結果。客戶得到了滿足,下一次還過來,而且會向其他(tā)人介紹,這一來一往,使用(yòng)的人就多(duō)了。所以Google在沒有(yǒu)做任何廣告的前提下,讓自己成為(wèi)了全球最大的品牌。Google究竟采用(yòng)了哪種排序技(jì )術?PageRank,即網頁(yè)級别。
Google有(yǒu)一個創始人叫Larry Page,據說PageRank的專利是他(tā)申請的,于是依據他(tā)的名(míng)字就有(yǒu)了Page Rank。國(guó)内也有(yǒu)一家很(hěn)成功的搜索引擎公(gōng)司,叫百度( http://www.baidu.com )。百度的創始人李彥宏說,早在1996年他(tā)就申請了名(míng)為(wèi)超鏈分(fēn)析的專利,PageRank的原理(lǐ)和超鏈分(fēn)析的原理(lǐ)是一樣的,而且PageRank目前還在Paten-pending(專利申請中(zhōng))。言下之意是這裏面存在專利所有(yǒu)權的問題。這裏不讨論專利所有(yǒu)權,隻是從中(zhōng)可(kě)看出,成功搜索引擎的排序技(jì )術,就其原理(lǐ)上來說都差不多(duō),那就是鏈接分(fēn)析。超鏈分(fēn)析和PageRank都屬于鏈接分(fēn)析。
鏈接分(fēn)析到底為(wèi)何物(wù)?由于李彥宏的超鏈分(fēn)析沒有(yǒu)具(jù)體(tǐ)的介紹,筆(bǐ)者唯一看過的就是在美國(guó)專利局網站上關于李彥宏的專利介紹。PageRank的介紹倒是不少,而且目前Google畢竟是全球最大的搜索引擎,這裏以PageRank為(wèi)代表,詳細介紹鏈接分(fēn)析的原理(lǐ)。
PageRank揭密
PageRank的原理(lǐ)類似于科(kē)技(jì )論文(wén)中(zhōng)的引用(yòng)機制:誰的論文(wén)被引用(yòng)次數多(duō),誰就是權威。說的更白話一點:張三在談話中(zhōng)提到了張曼玉,李四在談話中(zhōng)也提到張曼玉,王五在談話中(zhōng)還提到張曼玉,這就說明張曼玉一定是很(hěn)有(yǒu)名(míng)的人。在互聯網上,鏈接就相當于“引用(yòng)”,在B網頁(yè)中(zhōng)鏈接了A,相當于B在談話時提到了A,如果在C、D、E、F中(zhōng)都鏈接了A,那麽說明A網頁(yè)是最重要的,A網頁(yè)的PageRank值也就最高。
如何計算PageRank值有(yǒu)一個簡單的公(gōng)式 :

其中(zhōng):系數為(wèi)一個大于0,小(xiǎo)于1的數。一般設置為(wèi)0.85。網頁(yè)1、網頁(yè)2至網頁(yè)N表示所有(yǒu)鏈接指向A的網頁(yè)。
由以上公(gōng)式可(kě)以看出三點 :
1、鏈接指向A的網頁(yè)越多(duō),A的級别越高。即A的級别和指向A的網頁(yè)個數成正比,在公(gōng)式中(zhōng)表示,N越大, A的級别越高;
2、鏈接指向A的網頁(yè),其網頁(yè)級别越高, A的級别也越高。即A的級别和指向A的網頁(yè)自己的網頁(yè)級别成正比,在公(gōng)式中(zhōng)表示,網頁(yè)N級别越高, A的級别也越高;
3、鏈接指向A的網頁(yè),其鏈出的個數越多(duō),A的級别越低。即A的級别和指向A的網頁(yè)自己的網頁(yè)鏈出個數成反比,在公(gōng)式中(zhōng)現實,網頁(yè)N鏈出個數越多(duō),A的級别越低。
每個網頁(yè)有(yǒu)一個PageRank值,這樣形成一個巨大的方程組,對這個方程組求解,就能(néng)得到每個網頁(yè)的PageRank值。互聯網上有(yǒu)上百億個網頁(yè),那麽這個方程組就有(yǒu)上百億個未知數,這個方程雖然是有(yǒu)解,但計算畢竟太複雜了,不可(kě)能(néng)把這所有(yǒu)的頁(yè)面放在一起去求解的。對具(jù)體(tǐ)的計算方法有(yǒu)興趣的朋友可(kě)以去參考一些數值計算方面的書。
總之,PageRank有(yǒu)效地利用(yòng)了互聯網所擁有(yǒu)的龐大鏈接構造的特性。 從網頁(yè)A導向網頁(yè)B的鏈接,用(yòng)Google創始人的話講,是頁(yè)面A對頁(yè)面B的支持投票,Google根據這個投票數來判斷頁(yè)面的重要性,但Google除了看投票數(鏈接數)以外,對投票者(鏈接的頁(yè)面)也進行分(fēn)析。「重要性」高的頁(yè)面所投的票的評價會更高,因為(wèi)接受這個投票頁(yè)面會被理(lǐ)解為(wèi)「重要的物(wù)品」。從新(xīn)浪、雅虎、微軟的首頁(yè)都有(yǒu)我網頁(yè)的三個鏈接的話,可(kě)能(néng)比我在其他(tā)網站找三十個鏈接還強。如果還有(yǒu)人不理(lǐ)解這個原理(lǐ),就去想想有(yǒu)句成語叫:三人成虎。如果有(yǒu)三個人都說北京大街(jiē)上有(yǒu)老虎,那麽許多(duō)人會認為(wèi)有(yǒu)老虎,如果這三個人都是國(guó)家領導人的話,那麽所有(yǒu)人都會認為(wèi)北京大街(jiē)上有(yǒu)老虎。
每個網頁(yè)都會有(yǒu)PageRank值,如果大家想知道自己網站的網頁(yè)PageRank值是多(duō)少,最簡單的辦(bàn)法就是下載一個Google的免費工(gōng)具(jù)欄( http://toolbar.google.com/ ),

每當你打開一個網頁(yè),都可(kě)以很(hěn)清楚的看見此網頁(yè)的PageRank值。當然這個值是一個大概數字。
據Google技(jì )術負責人介紹,Google除了用(yòng)PageRank衡量網頁(yè)的重要程度以外,還有(yǒu)其它上百種因素來參與排序。其它搜索引擎也是如此,不可(kě)能(néng)按照某一種規則來進行搜索結果的排序。
其他(tā)方法
HillTop算法:
HillTop同樣是一項搜索引擎結果排序的專利,是Google的一個工(gōng)程師Bharat在2001年獲得的專利。Google的排序規則經常在變化,但變化最大的一次也就是基于HillTop算法進行了優化。HillTop究竟原理(lǐ)如何,值得Google如此青睐?
其實HillTop算法的指導思想和PageRank的是一緻的,都是通過網頁(yè)被鏈接的數量和質(zhì)量來确定搜索結果的排序權重。但HillTop認為(wèi)隻計算來自具(jù)有(yǒu)相同主題的相關文(wén)檔鏈接對于搜索者的價值會更大:即主題相關網頁(yè)之間的鏈接對于權重計算的貢獻比主題不相關的鏈接價值要更高。如果網站是介紹“服裝(zhuāng)”的,有(yǒu)10個鏈接都是從“服裝(zhuāng)”相關的網站鏈接過來,那這10個鏈接比另外10個從“電(diàn)器”相關網站鏈接過來的貢獻要大。Bharat稱這種對主題有(yǒu)影響的文(wén)檔為(wèi)“專家”文(wén)檔,從這些專家文(wén)檔頁(yè)面到目标文(wén)檔的鏈接決定了被鏈接網頁(yè)“權重得分(fēn)”的主要部分(fēn)。
與PageRank結合HillTop算法确定網頁(yè)與搜索關鍵詞的匹配程度的基本排序過程取代了過份依靠PageRank的值去尋找那些權威頁(yè)面的方法。這對于兩個具(jù)有(yǒu)同樣主題而且PR相近的網頁(yè)排序過程中(zhōng),HillTop算法就顯得非常的重要了。HillTop同時也避免了許多(duō)想通過增加許多(duō)無效鏈接來提高網頁(yè)PageRank值的做弊方法。
錨文(wén)本(Anchor Text)
錨文(wén)本名(míng)字聽起來難以理(lǐ)解,實際上錨文(wén)本就是鏈接文(wén)本。例如,在個人網站上把中(zhōng)央電(diàn)視台( www.cctv.com )做為(wèi)新(xīn)聞頻道的鏈接,訪問者通過點擊網站上的“新(xīn)聞頻道”就能(néng)進入 http://www.cctv.com 網站,那麽“新(xīn)聞頻道”就是中(zhōng)央電(diàn)視台網站首頁(yè)的錨文(wén)本。
錨文(wén)本可(kě)以做為(wèi)錨文(wén)本所在的頁(yè)面的内容的評估。正常來講,頁(yè)面中(zhōng)增加的鏈接都會和頁(yè)面本身的内容有(yǒu)一定的關系。服裝(zhuāng)的行業網站上會增加一些同行網站的鏈接或者一些做服裝(zhuāng)的知名(míng)企業的鏈接;另一方面,錨文(wén)本能(néng)做為(wèi)對所指向頁(yè)面的評估。錨文(wén)本能(néng)精(jīng)确的描述所指向頁(yè)面的内容,個人網站上增加Google的鏈接,錨文(wén)本為(wèi)“搜索引擎”。這樣通過錨文(wén)本本身就能(néng)知道,Google是搜索引擎。
錨文(wén)本對搜索引擎起的作(zuò)用(yòng)還表現為(wèi)可(kě)以收集一些搜索引擎不能(néng)索引的文(wén)件。例如,網站上增加了一張張曼玉的照片,格式為(wèi)jpg文(wén)件,搜索引擎目前很(hěn)難索引(一般隻處理(lǐ)文(wén)本)。若這張照片鏈接的錨文(wén)本為(wèi)“張曼玉的照片”,那麽搜索引擎就能(néng)識别這張圖片是張曼玉的照片,以後訪問者搜索“張曼玉”的時候,這張圖片就能(néng)被搜索到。
由此可(kě)見,在網頁(yè)設計中(zhōng)選擇合适的錨文(wén)本,會讓所在網頁(yè)和所指向網頁(yè)的重要程度有(yǒu)所提升。
頁(yè)面版式
每個網頁(yè)都有(yǒu)版式,包括标題、字體(tǐ)、标簽等等。搜索引擎也會利用(yòng)這些版式來識别搜索詞與頁(yè)面内容的相關程度。以靜态的html格式的網頁(yè)為(wèi)例,搜索引擎通過網絡蜘蛛把網頁(yè)抓取下來後,需要提取裏面的正文(wén)内容,過濾其他(tā)html代碼。在提取内容的時候,搜索引擎就可(kě)以記錄所有(yǒu)版式信息,包括:哪些詞是在标題中(zhōng)出現,哪些詞是在正文(wén)中(zhōng)出現,哪些詞的字體(tǐ)比其他(tā)的字體(tǐ)大,哪些詞是加粗過,哪些詞是用(yòng)KeyWord标識過的等等。這樣在搜索結果中(zhōng)就可(kě)以根據這些信息來确定所搜索的結果和搜索詞的相關程度。例如搜索“毛澤東”,假如有(yǒu)兩個結果,一篇文(wén)章标題是《毛澤東的一生》,另一篇文(wén)章的标題是《江青的一生》但内容有(yǒu)提到毛澤東,這時搜索引擎會認為(wèi)前者比較重要,因為(wèi)“毛澤東”在标題裏出現了。
因此,合理(lǐ)的利用(yòng)網頁(yè)的頁(yè)面版式,會提升網頁(yè)在搜索結果頁(yè)的排序位置。
收費排名(míng)
應該說收費排名(míng)并不屬于排序技(jì )術(這裏指的收費排名(míng)也包括競價排名(míng)),而是一種搜索引擎的赢利模式。但收費排名(míng)已經最直接的影響到了搜索引擎的排序,在此也略做說明。
用(yòng)戶可(kě)以購(gòu)買某個關鍵詞的排名(míng),隻要向搜索引擎公(gōng)司交納一定的費用(yòng),就可(kě)以讓用(yòng)戶的網站排在搜索結果的前幾位,按照不同關鍵詞、不同位置、時間長(cháng)短來定義價格。價格從幾千元到幾十萬元不等(像“六合彩”在3721上的排名(míng)費用(yòng)大多(duō)是幾十萬)。
收費排名(míng)一方面給搜索引擎公(gōng)司帶來收益,一方面給企業帶來訪問量,另外對訪問者也有(yǒu)一定好處。因為(wèi)訪問者想找“西服”,企業想賣“西服”,于是出錢讓訪問者能(néng)找到他(tā),這樣,買家和賣家能(néng)馬上見面。但收費排名(míng)給訪問者帶來更多(duō)的卻是不真實,結果排序已經失去了公(gōng)正性,有(yǒu)時候還帶來大量垃圾。在百度搜索引擎上搜索“ 星球 ”,排在第一位的是一家做石墨的公(gōng)司,排在第二位的居然是“想找星球?上易趣吧!”(見下圖)。真有(yǒu)些讓訪問者哭笑不得。

當然,對于企業來說,收費排名(míng)是提升網站在搜索引擎中(zhōng)排名(míng)的最直接和最簡單的辦(bàn)法。如今,如何提升網頁(yè)在搜索引擎中(zhōng)的排序,已經形成了一門職業,叫SEO(Search Engine Optimization),即搜索引擎優化。SEO是針對搜索引擎排序的技(jì )術,通過修改網頁(yè)(或者網站)結構和主動增加網站鏈接等方法來讓搜索引擎認為(wèi)這些網頁(yè)是很(hěn)重要的,從而提升網頁(yè)在搜索引擎結果中(zhōng)的排序。
排序技(jì )術的發展趨勢
各種搜索引擎的技(jì )術改進和優化,都直接反應到搜索結果的排序上。許多(duō)搜索引擎都在進一步研究新(xīn)的排序方法,來提升客戶的滿意度。專業人士認為(wèi),目前的搜索引擎排序算法上還存在兩大不足。
一、沒有(yǒu)真正解決相關性。
相關性是指搜索詞和頁(yè)面的相關程度。僅僅通過鏈接、字體(tǐ)、位置等表面特征,不能(néng)真正判斷搜索詞和文(wén)章的相關性,更何況許多(duō)時候這些特征不會都同時存在。這也是許多(duō)對搜索引擎做弊方法能(néng)有(yǒu)效的原因。另外,有(yǒu)些文(wén)章中(zhōng)沒有(yǒu)出現搜索詞,但說的就是和搜索詞十分(fēn)相關的内容,例如搜索“恐怖分(fēn)子”,但有(yǒu)網頁(yè)是介紹本拉登的一些破壞行動,文(wén)中(zhōng)沒有(yǒu)出現“恐怖分(fēn)子”的子眼,搜索引擎就無法搜索到該網頁(yè)。表面特征隻能(néng)治标,不能(néng)治本。治本的方法應該是增加語意理(lǐ)解,例如主題詞和關鍵詞的提取,從語意上分(fēn)析,得出搜索詞和網頁(yè)的相關程度,分(fēn)析的越準,效果就會越好。
二、搜索結果的單一化。
在搜索引擎上,任何人搜索同一個詞的結果都是一樣。這樣明顯不能(néng)滿足訪問者。科(kē)學(xué)家搜索“星球”,可(kě)能(néng)是希望了解星球的知識,但普通人可(kě)能(néng)是想找“星球大戰”電(diàn)影,但搜索引擎所給的都是一樣的結果。如何滿足這些不同類型的訪問者,需要對搜索結果的個性化。國(guó)外vivisimo公(gōng)司( http://www.vivisimo.com )就是想解決這個問題,他(tā)們采用(yòng)對搜索結果自動聚類的辦(bàn)法來滿足不同類型客戶的需要。搜索結果排序如果要實現從單一化到個性化,vivisimo已經邁出了一步,但最理(lǐ)想的結果應該是針對每個訪問者,排序結果直接和他(tā)們的搜索習慣和意願有(yǒu)關。搜索“體(tǐ)育”,對喜歡足球的人應該把足球的相關結果排在前面,對喜歡籃球的人應該把籃球的相關結果排在前面。
搜索引擎的排序技(jì )術應該也會朝着解決這兩個不足的方向發展:語意相關性和排序個性化。前者需要完善的自然語言處理(lǐ)技(jì )術,後者需要記錄龐大訪問者信息和複雜的計算,要達到其中(zhōng)任何一個的要求均非易事,如何解決這些難題,任務(wù)落在了科(kē)學(xué)家和工(gōng)程師們的肩上,哪個搜索引擎解決了這些問題,她可(kě)能(néng)會稱為(wèi)下一個搜索世界的霸主。 |