信息的迅速增長(cháng)必然需要強大的信息檢索工(gōng)具(jù),而在信息檢索工(gōng)具(jù)中(zhōng),全文(wén)檢索是最具(jù)通用(yòng)性和實用(yòng)性的。互聯網迅速發展所代表的信息爆炸對全文(wén)檢索技(jì )術又(yòu)提出了新(xīn)的要求。
應用(yòng)領域
互聯網的普及,使得全文(wén)檢索技(jì )術真正成熟起來,其應用(yòng)範圍已經擴展到Internet的各個領域:
Internet搜索引擎
Internet搜索引擎包括三個部分(fēn):收集網頁(yè)的機器人、分(fēn)類和索引及檢索引擎,全文(wén)檢索技(jì )術是搜索引擎的核心支撐技(jì )術。搜索引擎比傳統的信息檢索更為(wèi)複雜,表現在:
信息是分(fēn)布在Web空間的,要求系統對平台、網絡等各種複雜環境的适應能(néng)力強;信息不穩定,動态性強,因此要求系統的動态索引技(jì )術具(jù)有(yǒu)超級性能(néng);信息是海量的,要求檢索引擎具(jù)有(yǒu)先進的查詢算法,并且對相關排序要求很(hěn)高;由于搜索引擎的用(yòng)戶是普通用(yòng)戶,因此使用(yòng)知識詞典進行啓發式檢索就顯得特别重要;相關排序(Relevance Ranking)和相關反饋(Relevance Feedback)技(jì )術對Internet搜索特别重要。一次最普通的檢索可(kě)能(néng)得到成千上萬的結果。用(yòng)戶應該首先得到最相關的結果,可(kě)惜的是,單純基于IDF的相關性模型,很(hěn)難得到理(lǐ)想的結果,應該很(hěn)好地利用(yòng)HTML文(wén)檔的"結構特征"。相關反饋能(néng)夠根據用(yòng)戶對檢索引擎的命中(zhōng)結果的判别執行更加符合用(yòng)戶意圖的查詢。
.COM網站的站點檢索
一個好的檢索引擎是一個理(lǐ)想站點的關鍵。很(hěn)多(duō)人在訪問一個站點時喜歡使用(yòng)站點檢索,站點檢索應是分(fēn)類目錄導航和全文(wén)檢索的完美結合,具(jù)體(tǐ)包括以下幾個方面:
分(fēn)類目錄導航的關鍵是檢索範圍,檢索範圍的限制能(néng)使得檢索結果不會太多(duō)、太濫;全文(wén)檢索對于站點檢索是必不可(kě)少的,在通常情況下能(néng)夠幫助人們很(hěn)快地找到所要的網頁(yè);有(yǒu)時利用(yòng)分(fēn)類目錄導航和全文(wén)檢索還很(hěn)難定位到所要的信息,這時就要組合檢索輔助;必須有(yǒu)相關排序功能(néng),因為(wèi)當檢索結果太多(duō)時,用(yòng)戶不可(kě)能(néng)一一浏覽,大多(duō)數用(yòng)戶隻浏覽前面幾條,沒有(yǒu)相關排序,可(kě)能(néng)準确的檢索結果排在後面,用(yòng)戶不能(néng)浏覽到,而排在前面的檢索結果卻相關性很(hěn)少,造成用(yòng)戶的錯覺。
此外,我們還要考慮HTML/XML的特殊性、支持大量并發用(yòng)戶突發訪問、Web站點的動态特性、要求索引維護效率很(hěn)高等方面。
企業信息門戶的檢索引擎
根據未來協會經濟學(xué)家Tim Oren的理(lǐ)論:你與消費者甚至競争者分(fēn)享的東西越多(duō),你就越成功。電(diàn)子化企業應以建立企業信息門戶為(wèi)重點,把企業信息庫的信息發布到公(gōng)司的Internet/Intranet Web站點上,與Intranet的同事共享公(gōng)司信息,或者與公(gōng)司的客戶/合作(zuò)夥伴分(fēn)享公(gōng)司信息。企業信息門戶的一個核心問題是建立一個高效的知識檢索解決方案,在該解決方案中(zhōng),對信息檢索的要求包括:
* 跨越所有(yǒu)的數據源。包括文(wén)件系統、消息系統(E-mail System)、新(xīn)聞組、各種關系數據庫管理(lǐ)系統以及Web網站等,支持各種數據和信息格式。
* 檢索結果需要按照商(shāng)業分(fēn)類規則(Business Classification Rules)進行排列。對于用(yòng)戶某個特殊的知識檢索請求,把所有(yǒu)不同信息類别中(zhōng)的命中(zhōng)結果按照相關性或分(fēn)類排列。
* 能(néng)夠浏覽不同格式的信息。用(yòng)戶不需要安(ān)裝(zhuāng)産(chǎn)生這些信息和知識的原始軟件。
電(diàn)子商(shāng)務(wù)網站的内容檢索引擎
全文(wén)檢索等信息檢索手段對于一個電(diàn)子商(shāng)務(wù)站點是很(hěn)重要的,借助信息檢索技(jì )術可(kě)以幫助客戶快速定位到所要的信息或産(chǎn)品。檢索成為(wèi)商(shāng)機,成為(wèi)一筆(bǐ)業務(wù)成功的一個要素,如拍賣行電(diàn)子商(shāng)務(wù)站點,客戶通常根據關鍵詞或者摘要中(zhōng)的關鍵詞來查找所要的物(wù)品。在電(diàn)子商(shāng)務(wù)系統中(zhōng),數據全部在具(jù)有(yǒu)嚴格安(ān)全控制的數據庫中(zhōng),信息檢索不是靜态網頁(yè),而是動态生成網頁(yè),對電(diàn)子商(shāng)務(wù)站點的系統資源開銷是很(hěn)大的。大量并發用(yòng)戶突發訪問情況下的可(kě)靠性,是電(diàn)子商(shāng)務(wù)對全文(wén)檢索系統的基本要求。
Internet時代信息收集和交換的桌面平台
Internet時代,需要這麽一個信息收集和交換的桌面平台:它不僅能(néng)夠進行桌面文(wén)檔的管理(lǐ)和Internet信息的收集,而且它還可(kě)以作(zuò)為(wèi)信息交換的桌面平台。
* 桌面文(wén)檔的管理(lǐ):管理(lǐ)PC桌面上的文(wén)件, 并加以歸檔分(fēn)類。可(kě)以管理(lǐ)的文(wén)件應包括Text、 HTML/XML、 PDF、 Microsoft Office、 WPS、S2/PS2/PS等流行格式。
* Internet信息的收集:使用(yòng)IE等浏覽器浏覽Internet網頁(yè)時,能(néng)夠把要保存的網頁(yè)拖入本地PC桌面上的個人資料庫, 并加以歸檔分(fēn)類以便日後再利用(yòng)。
* 作(zuò)為(wèi)B2C/C2C信息交換的桌面平台:個人或企業可(kě)通過它交換和銷售資料庫。
發展趨勢
全文(wén)檢索(Full Text Retrieval)在技(jì )術上日趨成熟。中(zhōng)文(wén)全文(wén)檢索技(jì )術的研發始于1987年左右,目前已經商(shāng)品化的軟件有(yǒu)近10種。可(kě)喜的是,國(guó)内廠商(shāng)自主開發的全文(wén)檢索系統居于領先地位,市場占有(yǒu)率超過90%以上,包括fullsearcher、TRS、Quick IMS、南辰、 天宇、I-Search等。自主中(zhōng)文(wén)全文(wén)檢索技(jì )術已經達到了較高水平,在傳統市場也獲得了很(hěn)高的占有(yǒu)率,但是要在整體(tǐ)上提高中(zhōng)文(wén)全文(wén)檢索系統的水平和可(kě)用(yòng)性,必須在如下幾個方面有(yǒu)突破:
(1) 中(zhōng)文(wén)自然語言處理(lǐ)技(jì )術 無論從數據挖掘角度來提高全文(wén)檢索的查全率和查準率,還是提供更易使用(yòng)的自然語言查詢接口方面,中(zhōng)文(wén)自然語言處理(lǐ)仍然是關鍵因素,這也是中(zhōng)文(wén)全文(wén)檢索系統領先于國(guó)外同類産(chǎn)品的問題所在。 (2) 全文(wén)檢索系統的評價 與其他(tā)領域一樣,我國(guó)全文(wén)檢索技(jì )術的研究和系統開發缺乏科(kē)學(xué)的評價,國(guó)際上TREC Conference(http://trec.nist.gov) 被認為(wèi)是最具(jù)權威的信息檢索技(jì )術評測規範,實驗室系統、商(shāng)業系統均積極參加。但國(guó)内的系統至今沒有(yǒu)參與,要得到國(guó)際上的認可(kě),就必須參加TREC。 (3)系統的可(kě)靠性 沒有(yǒu)99.999%以上的可(kě)靠性,就無法适應NonStop eBusiness(永不停頓電(diàn)子商(shāng)務(wù))等關鍵業務(wù)的苛刻需求。 (4)系統的響應速度 分(fēn)析用(yòng)戶檢索表達式的使用(yòng)頻度,大大加速在子集裏檢索的速度。無論數據庫多(duō)大,檢索詞的檢索速度均在1秒(miǎo)之内。
最新(xīn)進展
以中(zhōng)文(wén)全文(wén)檢索為(wèi)核心開發的fullsearcher檢索系統,可(kě)以廣泛地應用(yòng)于各種信息數據庫、信息門戶的建設, 以及從Web站點檢索、Internet搜索引擎到電(diàn)子商(shāng)務(wù)等各種應用(yòng)中(zhōng)文(wén)信息的發布檢索。在衆多(duō)的中(zhōng)文(wén)全文(wén)檢索軟件中(zhōng),其最新(xīn)的進展表現在: (1)領先的中(zhōng)文(wén)信息處理(lǐ)技(jì )術 内嵌漢語自動分(fēn)詞系統,支持按詞索引、按字索引、按關鍵詞索引、字詞混合索引,大大提高了檢索的準确性和響應時間。 (2)檢索信息快、準而且全 基于成本優化的查詢算法,使得G級數據庫查詢速度達到亞秒(miǎo)級,并支持大量并發用(yòng)戶同時訪問。允許使用(yòng)文(wén)中(zhōng)的任意字、詞、句和片段進行檢索,提供了基于文(wén)獻内容而不僅僅是文(wén)獻外部特征的全文(wén)檢索手段。TRS所提供的按詞和按用(yòng)戶自定義關鍵詞進行索引和檢索,以及基于知識詞典的擴展檢索功能(néng),滿足了特殊應用(yòng)領域的高查準率和高查全率的要求。 (3)檢索功能(néng)強大 全方位檢索手段,支持與搜索、去除搜索等标準的國(guó)際搜索語法。另外拼音搜索、南方音模糊搜索、多(duō)字漏字錯字模糊搜索、對檢索結果按與檢索表達式的相關性和重要性程序排序等。
詳情請點擊查看“全文(wén)檢索者搜索軟件系列介紹”
全文(wén)檢索已經成為(wèi)網站的必備功能(néng),随着政府上網、企業上網的深入開展,網上中(zhōng)文(wén)信息和電(diàn)子商(shāng)務(wù)應用(yòng)的不斷豐富,必然對基于互聯網的中(zhōng)文(wén)全文(wén)檢索技(jì )術提出更高的要求。技(jì )術的進步是沒有(yǒu)終點的,更快更準永遠(yuǎn)是全文(wén)檢索技(jì )術的追求。 |