中(zhōng)文(wén)搜索引擎技(jì )術揭密:排序技(jì )術--鄭州征途信息網--網站建設,河南網站建設,鄭州網站建設.網站推薦,河南網站推廣,鄭州網站推廣
建站流程 建站意向表 客戶案例 付款方式 聯系我們 加入收藏
河南鄭州網站建設銷售咨詢電(diàn)話:13073728811(24小(xiǎo)時值班)  客服電(diàn)話0371-60988783
首 頁(yè)網站建設網站推廣 5107網站伴侶 域名(míng)注冊 虛拟主機 企業郵局 關于我們 合作(zuò)代理(lǐ) 網上商(shāng)店(diàn) 企業郵箱
征途新(xīn)聞
公(gōng)司新(xīn)聞
行業新(xīn)聞
服務(wù)項目
網站建設 網站推廣
域名(míng)注冊 虛拟主機
網站伴侶 運營維護
聯系我們

聯系電(diàn)話:
0371-60273020       60273015
      60273016
      60273017
傳    真:
0371-60273018

 
當前位置:首 頁(yè) > 中(zhōng)文(wén)搜索引擎技(jì )術揭密:排
中(zhōng)文(wén)搜索引擎技(jì )術揭密:排序技(jì )術
發布日期:2007-5-25
關鍵詞:中(zhōng)文(wén)搜索引擎技(jì )術揭密

    随着“眼球經濟”席卷互聯網,成千上萬的資金迅速流向最能(néng)吸引浏覽着眼球的搜索引擎市場。有(yǒu)大量調查顯示搜索引擎市場正處在高速發展時期,成為(wèi)了未來幾年内最具(jù)發展潛力的産(chǎn)業之一。随着Google、百度、中(zhōng)國(guó)搜索等各具(jù)特色的搜索引擎逐漸成為(wèi)人們最常用(yòng)的網絡工(gōng)具(jù),企業對搜索引擎的注意力也從“觀察”升級為(wèi)“動武”。


    随着市場容量和使用(yòng)者人數的不斷激增,如何完善搜索功能(néng)使之更加公(gōng)平、公(gōng)開、标準和人性化也就随之成為(wèi)了一個備受關注的話題。但是有(yǒu)一個矛盾體(tǐ)在這其中(zhōng)不斷的顯現出來:收費可(kě)以為(wèi)搜索引擎公(gōng)司帶來利潤,但同時會降低訪問者的體(tǐ)驗滿意度。如何權衡金錢和用(yòng)戶需求之間的天平呢(ne)?


Google成功的秘密


    到2004年為(wèi)止,Google( http://www.google.com )已經連續兩年被評為(wèi)全球第一品牌,Google成立僅五年時間,最初隻是兩個斯坦福大學(xué)學(xué)生的研究項目。這不能(néng)不說是一個奇迹,就像比爾?蓋茨創制奇迹一樣。比爾?蓋茨能(néng)創造奇迹,是因為(wèi)他(tā)看準了個人計算機軟件市場的趨勢,所以創建的公(gōng)司叫Microsoft(微軟):Micro(小(xiǎo))Soft(軟件)。那麽Google呢(ne)?在Google出來之前已經有(yǒu)一些很(hěn)有(yǒu)成就的搜索引擎公(gōng)司,其實力也很(hěn)強,看來不隻是Google看見了搜索的趨勢。Google究竟成功的秘密在哪兒?


    Google的成功有(yǒu)許多(duō)因素,最重要的是Google對搜索結果的排序比其它搜索引擎都要好。Google保證讓絕大部分(fēn)用(yòng)搜索的人,都能(néng)在搜索結果的第一頁(yè)找到他(tā)想要的結果。客戶得到了滿足,下一次還過來,而且會向其他(tā)人介紹,這一來一往,使用(yòng)的人就多(duō)了。所以Google在沒有(yǒu)做任何廣告的前提下,讓自己成為(wèi)了全球最大的品牌。Google究竟采用(yòng)了哪種排序技(jì )術?PageRank,即網頁(yè)級别。


    Google有(yǒu)一個創始人叫Larry Page,據說PageRank的專利是他(tā)申請的,于是依據他(tā)的名(míng)字就有(yǒu)了Page Rank。國(guó)内也有(yǒu)一家很(hěn)成功的搜索引擎公(gōng)司,叫百度( http://www.baidu.com )。百度的創始人李彥宏說,早在1996年他(tā)就申請了名(míng)為(wèi)超鏈分(fēn)析的專利,PageRank的原理(lǐ)和超鏈分(fēn)析的原理(lǐ)是一樣的,而且PageRank目前還在Paten-pending(專利申請中(zhōng))。言下之意是這裏面存在專利所有(yǒu)權的問題。這裏不讨論專利所有(yǒu)權,隻是從中(zhōng)可(kě)看出,成功搜索引擎的排序技(jì )術,就其原理(lǐ)上來說都差不多(duō),那就是鏈接分(fēn)析。超鏈分(fēn)析和PageRank都屬于鏈接分(fēn)析。


    鏈接分(fēn)析到底為(wèi)何物(wù)?由于李彥宏的超鏈分(fēn)析沒有(yǒu)具(jù)體(tǐ)的介紹,筆(bǐ)者唯一看過的就是在美國(guó)專利局網站上關于李彥宏的專利介紹。PageRank的介紹倒是不少,而且目前Google畢竟是全球最大的搜索引擎,這裏以PageRank為(wèi)代表,詳細介紹鏈接分(fēn)析的原理(lǐ)。


 


PageRank揭密


    PageRank的原理(lǐ)類似于科(kē)技(jì )論文(wén)中(zhōng)的引用(yòng)機制:誰的論文(wén)被引用(yòng)次數多(duō),誰就是權威。說的更白話一點:張三在談話中(zhōng)提到了張曼玉,李四在談話中(zhōng)也提到張曼玉,王五在談話中(zhōng)還提到張曼玉,這就說明張曼玉一定是很(hěn)有(yǒu)名(míng)的人。在互聯網上,鏈接就相當于“引用(yòng)”,在B網頁(yè)中(zhōng)鏈接了A,相當于B在談話時提到了A,如果在C、D、E、F中(zhōng)都鏈接了A,那麽說明A網頁(yè)是最重要的,A網頁(yè)的PageRank值也就最高。


    如何計算PageRank值有(yǒu)一個簡單的公(gōng)式 :


中(zhōng)文(wén)搜索引擎技(jì )術揭密:排序技(jì )術


    其中(zhōng):系數為(wèi)一個大于0,小(xiǎo)于1的數。一般設置為(wèi)0.85。網頁(yè)1、網頁(yè)2至網頁(yè)N表示所有(yǒu)鏈接指向A的網頁(yè)。


由以上公(gōng)式可(kě)以看出三點 :


1、鏈接指向A的網頁(yè)越多(duō),A的級别越高。即A的級别和指向A的網頁(yè)個數成正比,在公(gōng)式中(zhōng)表示,N越大, A的級别越高;


2、鏈接指向A的網頁(yè),其網頁(yè)級别越高, A的級别也越高。即A的級别和指向A的網頁(yè)自己的網頁(yè)級别成正比,在公(gōng)式中(zhōng)表示,網頁(yè)N級别越高, A的級别也越高;


3、鏈接指向A的網頁(yè),其鏈出的個數越多(duō),A的級别越低。即A的級别和指向A的網頁(yè)自己的網頁(yè)鏈出個數成反比,在公(gōng)式中(zhōng)現實,網頁(yè)N鏈出個數越多(duō),A的級别越低。


    每個網頁(yè)有(yǒu)一個PageRank值,這樣形成一個巨大的方程組,對這個方程組求解,就能(néng)得到每個網頁(yè)的PageRank值。互聯網上有(yǒu)上百億個網頁(yè),那麽這個方程組就有(yǒu)上百億個未知數,這個方程雖然是有(yǒu)解,但計算畢竟太複雜了,不可(kě)能(néng)把這所有(yǒu)的頁(yè)面放在一起去求解的。對具(jù)體(tǐ)的計算方法有(yǒu)興趣的朋友可(kě)以去參考一些數值計算方面的書。


    總之,PageRank有(yǒu)效地利用(yòng)了互聯網所擁有(yǒu)的龐大鏈接構造的特性。 從網頁(yè)A導向網頁(yè)B的鏈接,用(yòng)Google創始人的話講,是頁(yè)面A對頁(yè)面B的支持投票,Google根據這個投票數來判斷頁(yè)面的重要性,但Google除了看投票數(鏈接數)以外,對投票者(鏈接的頁(yè)面)也進行分(fēn)析。「重要性」高的頁(yè)面所投的票的評價會更高,因為(wèi)接受這個投票頁(yè)面會被理(lǐ)解為(wèi)「重要的物(wù)品」。從新(xīn)浪、雅虎、微軟的首頁(yè)都有(yǒu)我網頁(yè)的三個鏈接的話,可(kě)能(néng)比我在其他(tā)網站找三十個鏈接還強。如果還有(yǒu)人不理(lǐ)解這個原理(lǐ),就去想想有(yǒu)句成語叫:三人成虎。如果有(yǒu)三個人都說北京大街(jiē)上有(yǒu)老虎,那麽許多(duō)人會認為(wèi)有(yǒu)老虎,如果這三個人都是國(guó)家領導人的話,那麽所有(yǒu)人都會認為(wèi)北京大街(jiē)上有(yǒu)老虎。


    每個網頁(yè)都會有(yǒu)PageRank值,如果大家想知道自己網站的網頁(yè)PageRank值是多(duō)少,最簡單的辦(bàn)法就是下載一個Google的免費工(gōng)具(jù)欄( http://toolbar.google.com/ ),


中(zhōng)文(wén)搜索引擎技(jì )術揭密:排序技(jì )術


    每當你打開一個網頁(yè),都可(kě)以很(hěn)清楚的看見此網頁(yè)的PageRank值。當然這個值是一個大概數字。


    據Google技(jì )術負責人介紹,Google除了用(yòng)PageRank衡量網頁(yè)的重要程度以外,還有(yǒu)其它上百種因素來參與排序。其它搜索引擎也是如此,不可(kě)能(néng)按照某一種規則來進行搜索結果的排序。


其他(tā)方法


HillTop算法:


    HillTop同樣是一項搜索引擎結果排序的專利,是Google的一個工(gōng)程師Bharat在2001年獲得的專利。Google的排序規則經常在變化,但變化最大的一次也就是基于HillTop算法進行了優化。HillTop究竟原理(lǐ)如何,值得Google如此青睐?


    其實HillTop算法的指導思想和PageRank的是一緻的,都是通過網頁(yè)被鏈接的數量和質(zhì)量來确定搜索結果的排序權重。但HillTop認為(wèi)隻計算來自具(jù)有(yǒu)相同主題的相關文(wén)檔鏈接對于搜索者的價值會更大:即主題相關網頁(yè)之間的鏈接對于權重計算的貢獻比主題不相關的鏈接價值要更高。如果網站是介紹“服裝(zhuāng)”的,有(yǒu)10個鏈接都是從“服裝(zhuāng)”相關的網站鏈接過來,那這10個鏈接比另外10個從“電(diàn)器”相關網站鏈接過來的貢獻要大。Bharat稱這種對主題有(yǒu)影響的文(wén)檔為(wèi)“專家”文(wén)檔,從這些專家文(wén)檔頁(yè)面到目标文(wén)檔的鏈接決定了被鏈接網頁(yè)“權重得分(fēn)”的主要部分(fēn)。


    與PageRank結合HillTop算法确定網頁(yè)與搜索關鍵詞的匹配程度的基本排序過程取代了過份依靠PageRank的值去尋找那些權威頁(yè)面的方法。這對于兩個具(jù)有(yǒu)同樣主題而且PR相近的網頁(yè)排序過程中(zhōng),HillTop算法就顯得非常的重要了。HillTop同時也避免了許多(duō)想通過增加許多(duō)無效鏈接來提高網頁(yè)PageRank值的做弊方法。


錨文(wén)本(Anchor Text)


    錨文(wén)本名(míng)字聽起來難以理(lǐ)解,實際上錨文(wén)本就是鏈接文(wén)本。例如,在個人網站上把中(zhōng)央電(diàn)視台( www.cctv.com )做為(wèi)新(xīn)聞頻道的鏈接,訪問者通過點擊網站上的“新(xīn)聞頻道”就能(néng)進入 http://www.cctv.com 網站,那麽“新(xīn)聞頻道”就是中(zhōng)央電(diàn)視台網站首頁(yè)的錨文(wén)本。


    錨文(wén)本可(kě)以做為(wèi)錨文(wén)本所在的頁(yè)面的内容的評估。正常來講,頁(yè)面中(zhōng)增加的鏈接都會和頁(yè)面本身的内容有(yǒu)一定的關系。服裝(zhuāng)的行業網站上會增加一些同行網站的鏈接或者一些做服裝(zhuāng)的知名(míng)企業的鏈接;另一方面,錨文(wén)本能(néng)做為(wèi)對所指向頁(yè)面的評估。錨文(wén)本能(néng)精(jīng)确的描述所指向頁(yè)面的内容,個人網站上增加Google的鏈接,錨文(wén)本為(wèi)“搜索引擎”。這樣通過錨文(wén)本本身就能(néng)知道,Google是搜索引擎。


    錨文(wén)本對搜索引擎起的作(zuò)用(yòng)還表現為(wèi)可(kě)以收集一些搜索引擎不能(néng)索引的文(wén)件。例如,網站上增加了一張張曼玉的照片,格式為(wèi)jpg文(wén)件,搜索引擎目前很(hěn)難索引(一般隻處理(lǐ)文(wén)本)。若這張照片鏈接的錨文(wén)本為(wèi)“張曼玉的照片”,那麽搜索引擎就能(néng)識别這張圖片是張曼玉的照片,以後訪問者搜索“張曼玉”的時候,這張圖片就能(néng)被搜索到。


    由此可(kě)見,在網頁(yè)設計中(zhōng)選擇合适的錨文(wén)本,會讓所在網頁(yè)和所指向網頁(yè)的重要程度有(yǒu)所提升。


頁(yè)面版式


    每個網頁(yè)都有(yǒu)版式,包括标題、字體(tǐ)、标簽等等。搜索引擎也會利用(yòng)這些版式來識别搜索詞與頁(yè)面内容的相關程度。以靜态的html格式的網頁(yè)為(wèi)例,搜索引擎通過網絡蜘蛛把網頁(yè)抓取下來後,需要提取裏面的正文(wén)内容,過濾其他(tā)html代碼。在提取内容的時候,搜索引擎就可(kě)以記錄所有(yǒu)版式信息,包括:哪些詞是在标題中(zhōng)出現,哪些詞是在正文(wén)中(zhōng)出現,哪些詞的字體(tǐ)比其他(tā)的字體(tǐ)大,哪些詞是加粗過,哪些詞是用(yòng)KeyWord标識過的等等。這樣在搜索結果中(zhōng)就可(kě)以根據這些信息來确定所搜索的結果和搜索詞的相關程度。例如搜索“毛澤東”,假如有(yǒu)兩個結果,一篇文(wén)章标題是《毛澤東的一生》,另一篇文(wén)章的标題是《江青的一生》但内容有(yǒu)提到毛澤東,這時搜索引擎會認為(wèi)前者比較重要,因為(wèi)“毛澤東”在标題裏出現了。


    因此,合理(lǐ)的利用(yòng)網頁(yè)的頁(yè)面版式,會提升網頁(yè)在搜索結果頁(yè)的排序位置。


收費排名(míng)


    應該說收費排名(míng)并不屬于排序技(jì )術(這裏指的收費排名(míng)也包括競價排名(míng)),而是一種搜索引擎的赢利模式。但收費排名(míng)已經最直接的影響到了搜索引擎的排序,在此也略做說明。


    用(yòng)戶可(kě)以購(gòu)買某個關鍵詞的排名(míng),隻要向搜索引擎公(gōng)司交納一定的費用(yòng),就可(kě)以讓用(yòng)戶的網站排在搜索結果的前幾位,按照不同關鍵詞、不同位置、時間長(cháng)短來定義價格。價格從幾千元到幾十萬元不等(像“六合彩”在3721上的排名(míng)費用(yòng)大多(duō)是幾十萬)。


    收費排名(míng)一方面給搜索引擎公(gōng)司帶來收益,一方面給企業帶來訪問量,另外對訪問者也有(yǒu)一定好處。因為(wèi)訪問者想找“西服”,企業想賣“西服”,于是出錢讓訪問者能(néng)找到他(tā),這樣,買家和賣家能(néng)馬上見面。但收費排名(míng)給訪問者帶來更多(duō)的卻是不真實,結果排序已經失去了公(gōng)正性,有(yǒu)時候還帶來大量垃圾。在百度搜索引擎上搜索“ 星球 ”,排在第一位的是一家做石墨的公(gōng)司,排在第二位的居然是“想找星球?上易趣吧!”(見下圖)。真有(yǒu)些讓訪問者哭笑不得。


中(zhōng)文(wén)搜索引擎技(jì )術揭密:排序技(jì )術


    當然,對于企業來說,收費排名(míng)是提升網站在搜索引擎中(zhōng)排名(míng)的最直接和最簡單的辦(bàn)法。如今,如何提升網頁(yè)在搜索引擎中(zhōng)的排序,已經形成了一門職業,叫SEO(Search Engine Optimization),即搜索引擎優化。SEO是針對搜索引擎排序的技(jì )術,通過修改網頁(yè)(或者網站)結構和主動增加網站鏈接等方法來讓搜索引擎認為(wèi)這些網頁(yè)是很(hěn)重要的,從而提升網頁(yè)在搜索引擎結果中(zhōng)的排序。


排序技(jì )術的發展趨勢


    各種搜索引擎的技(jì )術改進和優化,都直接反應到搜索結果的排序上。許多(duō)搜索引擎都在進一步研究新(xīn)的排序方法,來提升客戶的滿意度。專業人士認為(wèi),目前的搜索引擎排序算法上還存在兩大不足。


一、沒有(yǒu)真正解決相關性。


    相關性是指搜索詞和頁(yè)面的相關程度。僅僅通過鏈接、字體(tǐ)、位置等表面特征,不能(néng)真正判斷搜索詞和文(wén)章的相關性,更何況許多(duō)時候這些特征不會都同時存在。這也是許多(duō)對搜索引擎做弊方法能(néng)有(yǒu)效的原因。另外,有(yǒu)些文(wén)章中(zhōng)沒有(yǒu)出現搜索詞,但說的就是和搜索詞十分(fēn)相關的内容,例如搜索“恐怖分(fēn)子”,但有(yǒu)網頁(yè)是介紹本拉登的一些破壞行動,文(wén)中(zhōng)沒有(yǒu)出現“恐怖分(fēn)子”的子眼,搜索引擎就無法搜索到該網頁(yè)。表面特征隻能(néng)治标,不能(néng)治本。治本的方法應該是增加語意理(lǐ)解,例如主題詞和關鍵詞的提取,從語意上分(fēn)析,得出搜索詞和網頁(yè)的相關程度,分(fēn)析的越準,效果就會越好。


二、搜索結果的單一化。


    在搜索引擎上,任何人搜索同一個詞的結果都是一樣。這樣明顯不能(néng)滿足訪問者。科(kē)學(xué)家搜索“星球”,可(kě)能(néng)是希望了解星球的知識,但普通人可(kě)能(néng)是想找“星球大戰”電(diàn)影,但搜索引擎所給的都是一樣的結果。如何滿足這些不同類型的訪問者,需要對搜索結果的個性化。國(guó)外vivisimo公(gōng)司( http://www.vivisimo.com )就是想解決這個問題,他(tā)們采用(yòng)對搜索結果自動聚類的辦(bàn)法來滿足不同類型客戶的需要。搜索結果排序如果要實現從單一化到個性化,vivisimo已經邁出了一步,但最理(lǐ)想的結果應該是針對每個訪問者,排序結果直接和他(tā)們的搜索習慣和意願有(yǒu)關。搜索“體(tǐ)育”,對喜歡足球的人應該把足球的相關結果排在前面,對喜歡籃球的人應該把籃球的相關結果排在前面。


    搜索引擎的排序技(jì )術應該也會朝着解決這兩個不足的方向發展:語意相關性和排序個性化。前者需要完善的自然語言處理(lǐ)技(jì )術,後者需要記錄龐大訪問者信息和複雜的計算,要達到其中(zhōng)任何一個的要求均非易事,如何解決這些難題,任務(wù)落在了科(kē)學(xué)家和工(gōng)程師們的肩上,哪個搜索引擎解決了這些問題,她可(kě)能(néng)會稱為(wèi)下一個搜索世界的霸主。

上一條: 互聯網需要全文(wén)檢索
  下一條: 中(zhōng)文(wén)搜索引擎技(jì )術揭密:網絡蜘蛛
征途介紹 | 征途新(xīn)聞 | 客戶服務(wù) | 版權聲明 | 友情鏈接 | 聯系我們 | 網站建設 | 網站推廣
版權所有(yǒu):鄭州征途信息技(jì )術有(yǒu)限公(gōng)司 地址:鄭州市管城區(qū)地鐵2号線(xiàn)二裏崗B口斜對面中(zhōng)國(guó)郵政鄭州跨境電(diàn)商(shāng)産(chǎn)業園2樓210
聯系電(diàn)話:0371-60988783 13073728811 京ICP證000000号

本站關鍵詞:鄭州網站建設公(gōng)司 鄭州網站建設 鄭州電(diàn)子商(shāng)務(wù) 鄭州網站設計 鄭州網站策劃 河南鄭州網站建設 鄭州網站制作(zuò) 鄭州建網站
鄭州網站制作(zuò) 鄭州做網站的公(gōng)司 網站托管 鄭州 鄭州網絡公(gōng)司 新(xīn)鄉網絡公(gōng)司 河南網絡公(gōng)司 洛陽網絡公(gōng)司 網站建設 電(diàn)子商(shāng)務(wù)網站
建網站 網站設計 鄭州虛拟主機 新(xīn)鄉網站建設 鄭州 網站制作(zuò) 安(ān)陽網絡公(gōng)司 焦作(zuò)網絡公(gōng)司 網頁(yè)設計 鄭州網頁(yè)設計 鄭州網站制作(zuò) 在線(xiàn)客服
網頁(yè)制作(zuò) 網站制作(zuò) 河南網站建設 烽火台 網絡推廣 鄭州網站推廣 網站建設方案 網絡營銷 河南網站建設公(gōng)司 鄭州5107網站伴侶