互聯網需要全文(wén)檢索--鄭州征途信息網--網站建設,河南網站建設,鄭州網站建設.網站推薦,河南網站推廣,鄭州網站推廣
建站流程 建站意向表 客戶案例 付款方式 聯系我們 加入收藏
河南鄭州網站建設銷售咨詢電(diàn)話:13073728811(24小(xiǎo)時值班)  客服電(diàn)話0371-60988783
首 頁(yè)網站建設網站推廣 5107網站伴侶 域名(míng)注冊 虛拟主機 企業郵局 關于我們 合作(zuò)代理(lǐ) 網上商(shāng)店(diàn) 企業郵箱
征途新(xīn)聞
公(gōng)司新(xīn)聞
行業新(xīn)聞
服務(wù)項目
網站建設 網站推廣
域名(míng)注冊 虛拟主機
網站伴侶 運營維護
聯系我們

聯系電(diàn)話:
0371-60273020       60273015
      60273016
      60273017
傳    真:
0371-60273018

 
當前位置:首 頁(yè) > 互聯網需要全文(wén)檢索
互聯網需要全文(wén)檢索
發布日期:2007-5-25
關鍵詞:互聯網 全文(wén)檢索


    信息的迅速增長(cháng)必然需要強大的信息檢索工(gōng)具(jù),而在信息檢索工(gōng)具(jù)中(zhōng),全文(wén)檢索是最具(jù)通用(yòng)性和實用(yòng)性的。互聯網迅速發展所代表的信息爆炸對全文(wén)檢索技(jì )術又(yòu)提出了新(xīn)的要求。


  應用(yòng)領域



  互聯網的普及,使得全文(wén)檢索技(jì )術真正成熟起來,其應用(yòng)範圍已經擴展到Internet的各個領域:



  Internet搜索引擎



  Internet搜索引擎包括三個部分(fēn):收集網頁(yè)的機器人、分(fēn)類和索引及檢索引擎,全文(wén)檢索技(jì )術是搜索引擎的核心支撐技(jì )術。搜索引擎比傳統的信息檢索更為(wèi)複雜,表現在:


  信息是分(fēn)布在Web空間的,要求系統對平台、網絡等各種複雜環境的适應能(néng)力強;信息不穩定,動态性強,因此要求系統的動态索引技(jì )術具(jù)有(yǒu)超級性能(néng);信息是海量的,要求檢索引擎具(jù)有(yǒu)先進的查詢算法,并且對相關排序要求很(hěn)高;由于搜索引擎的用(yòng)戶是普通用(yòng)戶,因此使用(yòng)知識詞典進行啓發式檢索就顯得特别重要;相關排序(Relevance Ranking)和相關反饋(Relevance Feedback)技(jì )術對Internet搜索特别重要。一次最普通的檢索可(kě)能(néng)得到成千上萬的結果。用(yòng)戶應該首先得到最相關的結果,可(kě)惜的是,單純基于IDF的相關性模型,很(hěn)難得到理(lǐ)想的結果,應該很(hěn)好地利用(yòng)HTML文(wén)檔的"結構特征"。相關反饋能(néng)夠根據用(yòng)戶對檢索引擎的命中(zhōng)結果的判别執行更加符合用(yòng)戶意圖的查詢。



  .COM網站的站點檢索



  一個好的檢索引擎是一個理(lǐ)想站點的關鍵。很(hěn)多(duō)人在訪問一個站點時喜歡使用(yòng)站點檢索,站點檢索應是分(fēn)類目錄導航和全文(wén)檢索的完美結合,具(jù)體(tǐ)包括以下幾個方面:


  分(fēn)類目錄導航的關鍵是檢索範圍,檢索範圍的限制能(néng)使得檢索結果不會太多(duō)、太濫;全文(wén)檢索對于站點檢索是必不可(kě)少的,在通常情況下能(néng)夠幫助人們很(hěn)快地找到所要的網頁(yè);有(yǒu)時利用(yòng)分(fēn)類目錄導航和全文(wén)檢索還很(hěn)難定位到所要的信息,這時就要組合檢索輔助;必須有(yǒu)相關排序功能(néng),因為(wèi)當檢索結果太多(duō)時,用(yòng)戶不可(kě)能(néng)一一浏覽,大多(duō)數用(yòng)戶隻浏覽前面幾條,沒有(yǒu)相關排序,可(kě)能(néng)準确的檢索結果排在後面,用(yòng)戶不能(néng)浏覽到,而排在前面的檢索結果卻相關性很(hěn)少,造成用(yòng)戶的錯覺。


  此外,我們還要考慮HTML/XML的特殊性、支持大量并發用(yòng)戶突發訪問、Web站點的動态特性、要求索引維護效率很(hěn)高等方面。



  企業信息門戶的檢索引擎



  根據未來協會經濟學(xué)家Tim Oren的理(lǐ)論:你與消費者甚至競争者分(fēn)享的東西越多(duō),你就越成功。電(diàn)子化企業應以建立企業信息門戶為(wèi)重點,把企業信息庫的信息發布到公(gōng)司的Internet/Intranet Web站點上,與Intranet的同事共享公(gōng)司信息,或者與公(gōng)司的客戶/合作(zuò)夥伴分(fēn)享公(gōng)司信息。企業信息門戶的一個核心問題是建立一個高效的知識檢索解決方案,在該解決方案中(zhōng),對信息檢索的要求包括:


  * 跨越所有(yǒu)的數據源。包括文(wén)件系統、消息系統(E-mail System)、新(xīn)聞組、各種關系數據庫管理(lǐ)系統以及Web網站等,支持各種數據和信息格式。


  * 檢索結果需要按照商(shāng)業分(fēn)類規則(Business Classification Rules)進行排列。對于用(yòng)戶某個特殊的知識檢索請求,把所有(yǒu)不同信息類别中(zhōng)的命中(zhōng)結果按照相關性或分(fēn)類排列。


  * 能(néng)夠浏覽不同格式的信息。用(yòng)戶不需要安(ān)裝(zhuāng)産(chǎn)生這些信息和知識的原始軟件。



  電(diàn)子商(shāng)務(wù)網站的内容檢索引擎



  全文(wén)檢索等信息檢索手段對于一個電(diàn)子商(shāng)務(wù)站點是很(hěn)重要的,借助信息檢索技(jì )術可(kě)以幫助客戶快速定位到所要的信息或産(chǎn)品。檢索成為(wèi)商(shāng)機,成為(wèi)一筆(bǐ)業務(wù)成功的一個要素,如拍賣行電(diàn)子商(shāng)務(wù)站點,客戶通常根據關鍵詞或者摘要中(zhōng)的關鍵詞來查找所要的物(wù)品。在電(diàn)子商(shāng)務(wù)系統中(zhōng),數據全部在具(jù)有(yǒu)嚴格安(ān)全控制的數據庫中(zhōng),信息檢索不是靜态網頁(yè),而是動态生成網頁(yè),對電(diàn)子商(shāng)務(wù)站點的系統資源開銷是很(hěn)大的。大量并發用(yòng)戶突發訪問情況下的可(kě)靠性,是電(diàn)子商(shāng)務(wù)對全文(wén)檢索系統的基本要求。



  Internet時代信息收集和交換的桌面平台



  Internet時代,需要這麽一個信息收集和交換的桌面平台:它不僅能(néng)夠進行桌面文(wén)檔的管理(lǐ)和Internet信息的收集,而且它還可(kě)以作(zuò)為(wèi)信息交換的桌面平台。


  * 桌面文(wén)檔的管理(lǐ):管理(lǐ)PC桌面上的文(wén)件, 并加以歸檔分(fēn)類。可(kě)以管理(lǐ)的文(wén)件應包括Text、 HTML/XML、 PDF、 Microsoft Office、 WPS、S2/PS2/PS等流行格式。


  * Internet信息的收集:使用(yòng)IE等浏覽器浏覽Internet網頁(yè)時,能(néng)夠把要保存的網頁(yè)拖入本地PC桌面上的個人資料庫, 并加以歸檔分(fēn)類以便日後再利用(yòng)。


  * 作(zuò)為(wèi)B2C/C2C信息交換的桌面平台:個人或企業可(kě)通過它交換和銷售資料庫。



  發展趨勢



  全文(wén)檢索(Full Text Retrieval)在技(jì )術上日趨成熟。中(zhōng)文(wén)全文(wén)檢索技(jì )術的研發始于1987年左右,目前已經商(shāng)品化的軟件有(yǒu)近10種。可(kě)喜的是,國(guó)内廠商(shāng)自主開發的全文(wén)檢索系統居于領先地位,市場占有(yǒu)率超過90%以上,包括fullsearcher、TRS、Quick IMS、南辰、 天宇、I-Search等。自主中(zhōng)文(wén)全文(wén)檢索技(jì )術已經達到了較高水平,在傳統市場也獲得了很(hěn)高的占有(yǒu)率,但是要在整體(tǐ)上提高中(zhōng)文(wén)全文(wén)檢索系統的水平和可(kě)用(yòng)性,必須在如下幾個方面有(yǒu)突破:


  (1) 中(zhōng)文(wén)自然語言處理(lǐ)技(jì )術 無論從數據挖掘角度來提高全文(wén)檢索的查全率和查準率,還是提供更易使用(yòng)的自然語言查詢接口方面,中(zhōng)文(wén)自然語言處理(lǐ)仍然是關鍵因素,這也是中(zhōng)文(wén)全文(wén)檢索系統領先于國(guó)外同類産(chǎn)品的問題所在。   
    (2) 全文(wén)檢索系統的評價 與其他(tā)領域一樣,我國(guó)全文(wén)檢索技(jì )術的研究和系統開發缺乏科(kē)學(xué)的評價,國(guó)際上TREC Conference(http://trec.nist.gov) 被認為(wèi)是最具(jù)權威的信息檢索技(jì )術評測規範,實驗室系統、商(shāng)業系統均積極參加。但國(guó)内的系統至今沒有(yǒu)參與,要得到國(guó)際上的認可(kě),就必須參加TREC。
    (3)系統的可(kě)靠性 沒有(yǒu)99.999%以上的可(kě)靠性,就無法适應NonStop eBusiness(永不停頓電(diàn)子商(shāng)務(wù))等關鍵業務(wù)的苛刻需求。   
    (4)系統的響應速度 分(fēn)析用(yòng)戶檢索表達式的使用(yòng)頻度,大大加速在子集裏檢索的速度。無論數據庫多(duō)大,檢索詞的檢索速度均在1秒(miǎo)之内。



  最新(xīn)進展



  以中(zhōng)文(wén)全文(wén)檢索為(wèi)核心開發的fullsearcher檢索系統,可(kě)以廣泛地應用(yòng)于各種信息數據庫、信息門戶的建設, 以及從Web站點檢索、Internet搜索引擎到電(diàn)子商(shāng)務(wù)等各種應用(yòng)中(zhōng)文(wén)信息的發布檢索。在衆多(duō)的中(zhōng)文(wén)全文(wén)檢索軟件中(zhōng),其最新(xīn)的進展表現在:
  (1)領先的中(zhōng)文(wén)信息處理(lǐ)技(jì )術 内嵌漢語自動分(fēn)詞系統,支持按詞索引、按字索引、按關鍵詞索引、字詞混合索引,大大提高了檢索的準确性和響應時間。   
   (2)檢索信息快、準而且全 基于成本優化的查詢算法,使得G級數據庫查詢速度達到亞秒(miǎo)級,并支持大量并發用(yòng)戶同時訪問。允許使用(yòng)文(wén)中(zhōng)的任意字、詞、句和片段進行檢索,提供了基于文(wén)獻内容而不僅僅是文(wén)獻外部特征的全文(wén)檢索手段。TRS所提供的按詞和按用(yòng)戶自定義關鍵詞進行索引和檢索,以及基于知識詞典的擴展檢索功能(néng),滿足了特殊應用(yòng)領域的高查準率和高查全率的要求。
   (3)檢索功能(néng)強大 全方位檢索手段,支持與搜索、去除搜索等标準的國(guó)際搜索語法。另外拼音搜索、南方音模糊搜索、多(duō)字漏字錯字模糊搜索、對檢索結果按與檢索表達式的相關性和重要性程序排序等。  


    詳情請點擊查看“全文(wén)檢索者搜索軟件系列介紹” 

    全文(wén)檢索已經成為(wèi)網站的必備功能(néng),随着政府上網、企業上網的深入開展,網上中(zhōng)文(wén)信息和電(diàn)子商(shāng)務(wù)應用(yòng)的不斷豐富,必然對基于互聯網的中(zhōng)文(wén)全文(wén)檢索技(jì )術提出更高的要求。技(jì )術的進步是沒有(yǒu)終點的,更快更準永遠(yuǎn)是全文(wén)檢索技(jì )術的追求。

上一條: 沒有(yǒu)了
  下一條: 網站站内搜索的重要性
征途介紹 | 征途新(xīn)聞 | 客戶服務(wù) | 版權聲明 | 友情鏈接 | 聯系我們 | 網站建設 | 網站推廣
版權所有(yǒu):鄭州征途信息技(jì )術有(yǒu)限公(gōng)司 地址:鄭州市管城區(qū)地鐵2号線(xiàn)二裏崗B口斜對面中(zhōng)國(guó)郵政鄭州跨境電(diàn)商(shāng)産(chǎn)業園2樓210
聯系電(diàn)話:0371-60988783 13073728811 京ICP證000000号

本站關鍵詞:鄭州網站建設公(gōng)司 鄭州網站建設 鄭州電(diàn)子商(shāng)務(wù) 鄭州網站設計 鄭州網站策劃 河南鄭州網站建設 鄭州網站制作(zuò) 鄭州建網站
鄭州網站制作(zuò) 鄭州做網站的公(gōng)司 網站托管 鄭州 鄭州網絡公(gōng)司 新(xīn)鄉網絡公(gōng)司 河南網絡公(gōng)司 洛陽網絡公(gōng)司 網站建設 電(diàn)子商(shāng)務(wù)網站
建網站 網站設計 鄭州虛拟主機 新(xīn)鄉網站建設 鄭州 網站制作(zuò) 安(ān)陽網絡公(gōng)司 焦作(zuò)網絡公(gōng)司 網頁(yè)設計 鄭州網頁(yè)設計 鄭州網站制作(zuò) 在線(xiàn)客服
網頁(yè)制作(zuò) 網站制作(zuò) 河南網站建設 烽火台 網絡推廣 鄭州網站推廣 網站建設方案 網絡營銷 河南網站建設公(gōng)司 鄭州5107網站伴侶