|
|
信息檢索的核心支撐技(jì )術 |
發布日期:2007-5-25 |
關鍵詞:信息檢索 |
(Information Retrieval),通常指文(wén)本信息檢索,包括信息的存儲、組織、表現、查詢、存取等各個方面,其核心為(wèi)文(wén)本信息的索引和檢索。從曆史上看,信息檢索經曆了手工(gōng)檢索、計算機檢索到目前網絡化、智能(néng)化檢索等多(duō)個發展階段。
目前,信息檢索已經發展到網絡化和智能(néng)化的階段。信息檢索的對象從相對封閉、穩定一緻、由獨立數據庫集中(zhōng)管理(lǐ)的信息内容擴展到開放、動态、更新(xīn)快、分(fēn)布廣泛、管理(lǐ)松散的Web内容;信息檢索的用(yòng)戶也由原來的情報專業人員擴展到包括商(shāng)務(wù)人員、管理(lǐ)人員、教師學(xué)生、各專業人士等在内的普通大衆,他(tā)們對信息檢索從結果到方式提出了更高、更多(duō)樣化的要求。适應網絡化、智能(néng)化以及個性化的需要是目前信息檢索技(jì )術發展的新(xīn)趨勢。
信息檢索技(jì )術的熱點
◆ 智能(néng)檢索或知識檢索
傳統的全文(wén)檢索技(jì )術基于關鍵詞匹配進行檢索,往往存在查不全、查不準、檢索質(zhì)量不高的現象,特别是在網絡信息時代,利用(yòng)關鍵詞匹配很(hěn)難滿足人們檢索的要求。智能(néng)檢索利用(yòng)分(fēn)詞詞典、同義詞典,同音詞典改善檢索效果,比如用(yòng)戶查詢“計算機”,與“電(diàn)腦”相關的信息也能(néng)檢索出來;進一步還可(kě)在知識層面或者說概念層面上輔助查詢,通過主題詞典、上下位詞典、相關同級詞典,形成一個知識體(tǐ)系或概念網絡,給予用(yòng)戶智能(néng)知識提示,最終幫助用(yòng)戶獲得最佳的檢索效果,比如用(yòng)戶可(kě)以進一步縮小(xiǎo)查詢範圍至“微機”、“服務(wù)器”或擴大查詢至“信息技(jì )術”或查詢相關的“電(diàn)子技(jì )術”、“軟件”、“計算機應用(yòng)”等範疇。另外,智能(néng)檢索還包括歧義信息和檢索處理(lǐ),如“蘋果”,究竟是指水果還是電(diàn)腦品牌,“華人”與“中(zhōng)華人民(mín)共和國(guó)”的區(qū)分(fēn),将通過歧義知識描述庫、全文(wén)索引、用(yòng)戶檢索上下文(wén)分(fēn)析以及用(yòng)戶相關性反饋等技(jì )術結合處理(lǐ),高效、準确地反饋給用(yòng)戶最需要的信息。
◆ 知識挖掘
目前主要指文(wén)本挖掘技(jì )術的發展,目的是幫助人們更好的發現、組織、表示信息,提取知識,滿足信息檢索的高層次需要。 知識挖掘包括摘要、分(fēn)類(聚類)和相似性檢索等方面。
自動摘要就是利用(yòng)計算機自動地從原始文(wén)獻中(zhōng)提取文(wén)摘。在信息檢索中(zhōng),自動摘要有(yǒu)助于用(yòng)戶快速評價檢索結果的相關程度,在信息服務(wù)中(zhōng),自動摘要有(yǒu)助于多(duō)種形式的内容分(fēn)發,如發往PDA、手機等。相似性檢索技(jì )術基于文(wén)檔内容特征檢索與其相似或相關的文(wén)檔,是實現用(yòng)戶個性化相關反饋的基礎,也可(kě)用(yòng)于去重分(fēn)析。自動分(fēn)類可(kě)基于統計或規則,經過機器學(xué)習形成預定義分(fēn)類樹,再根據文(wén)檔的内容特征将其歸類;自動聚類則是根據文(wén)檔内容的相關程度進行分(fēn)組歸并。自動分(fēn)類(聚類)在信息組織、導航方面非常有(yǒu)用(yòng)。
◆ 異構信息整合檢索和全息檢索
在信息檢索分(fēn)布化和網絡化的趨勢下,信息檢索系統的開放性和集成性要求越來越高,需要能(néng)夠檢索和整合不同來源和結構的信息,這是異構信息檢索技(jì )術發展的基點,包括支持各種格式化文(wén)件,如TEXT、HTML、XML、RTF、MS Office、PDF、PS2/PS、MARC、ISO2709等處理(lǐ)和檢索;支持多(duō)語種信息的檢索;支持結構化數據、半結構化數據及非結構化數據的統一處理(lǐ);和關系數據庫檢索的無縫集成以及其他(tā)開放檢索接口的集成等。所謂“全息檢索”的概念就是支持一切格式和方式的檢索,從目前實踐來講,發展到異構信息整合檢索的層面,基于自然語言理(lǐ)解的人機交互以及多(duō)媒體(tǐ)信息檢索整合等方面尚有(yǒu)待取得進一步突破。
另外,從工(gōng)程實踐角度,綜合采用(yòng)内存和外部存儲的多(duō)級緩存、分(fēn)布式群集和負載均衡技(jì )術也是信息檢索技(jì )術發展的重要方面。
随着互聯網的普及和電(diàn)子商(shāng)務(wù)的發展,企業和個人可(kě)獲取、需處理(lǐ)的信息量呈爆發式增長(cháng),而且其中(zhōng)絕大部分(fēn)都是非結構化和半結構化數據。内容管理(lǐ)的重要性日益凸現,而信息檢索作(zuò)為(wèi)内容管理(lǐ)的核心支撐技(jì )術,随着内容管理(lǐ)的發展和普及,亦将應用(yòng)到各個領域,成為(wèi)人們日常工(gōng)作(zuò)生活的密切夥伴。
信息檢索不等于 搜索引擎
互聯網的發展明顯地促進了信息檢索技(jì )術的發展和應用(yòng),一大批搜索引擎産(chǎn)品誕生,為(wèi)網民(mín)提供了很(hěn)好的快速信息獲取和網絡信息導航工(gōng)具(jù),但是将信息檢索等同于使用(yòng)搜索引擎就陷入了誤區(qū)。搜索引擎技(jì )術中(zhōng)也普遍采用(yòng)了全文(wén)信息檢索技(jì )術,但互聯網信息搜索和企業信息搜索是不同的。
一是數據量。傳統信息檢索系統一般索引庫規模多(duō)在GB級,但互聯網網頁(yè)搜索需要處理(lǐ)幾千萬上億的網頁(yè),搜索引擎的基本策略都是采用(yòng)檢索服務(wù)器群集,對大多(duō)數企業應用(yòng)是不合适和不必要的,并不适用(yòng)于企業應用(yòng)。
二是内容相關性。信息太多(duō),查準和排序就特别重要,Google等搜索引擎發展了網頁(yè)鏈接分(fēn)析技(jì )術,根據互聯網上網頁(yè)被連接次數作(zuò)為(wèi)重要性評判的依據。但企業網站内部的網頁(yè)鏈接由網站内容采編發布系統決定,其鏈接次數存在偶然因素,不能(néng)作(zuò)為(wèi)判别重要性的依據。真正的企業應用(yòng)的檢索要求基于内容的相關性排序,就是說,和檢索要求最相關的信息排在檢索結果的前面,鏈接分(fēn)析技(jì )術此種排序基本不起作(zuò)用(yòng)。
三是實時性。搜索引擎的索引生成和檢索服務(wù)是分(fēn)開的,周期性更新(xīn)和同步數據,大的搜索引擎的更新(xīn)周期需要以周乃至月度量;而企業信息檢索需要實時反映内外信息變化,搜索引擎系統機制并不能(néng)适應企業中(zhōng)動态性數據增長(cháng)和修改的要求。
四是安(ān)全性。互聯網搜索引擎都基于文(wén)件系統,但企業應用(yòng)中(zhōng)内容一般均會安(ān)全和集中(zhōng)地存放在數據倉庫中(zhōng)以保證數據安(ān)全和管理(lǐ)的要求。
五是個性化和智能(néng)化。由于搜索引擎數據和客戶規模的限制,相關反饋、知識檢索、知識挖掘等計算密集的智能(néng)技(jì )術很(hěn)難應用(yòng),而專門針對企業的信息檢索應用(yòng)能(néng)在智能(néng)化和個性走得更遠(yuǎn)。
信息檢索的起源
信息檢索起源于圖書館的參考咨詢和文(wén)摘索引工(gōng)作(zuò),從19世紀下半葉首先開始發展,至20世紀40年代,索引和檢索成已為(wèi)圖書館獨立的工(gōng)具(jù)和用(yòng)戶服務(wù)項目。
随着1946年世界上第一台電(diàn)子計算機問世,計算機技(jì )術逐步走進信息檢索領域,并與信息檢索理(lǐ)論緊密結合起來;脫機批量情報檢索系統、聯機實時情報檢索系統相繼研制成功并商(shāng)業化,20世紀60年代到80年代,在信息處理(lǐ)技(jì )術、通訊技(jì )術、計算機和數據庫技(jì )術的推動下,信息檢索在教育、軍事和商(shāng)業等各領域高速發展,得到了廣泛的應用(yòng)。Dialog國(guó)際聯機情報檢索系統是這一時期的信息檢索領域的代表,至今仍是世界上最著名(míng)的系統之一。
| |
|
上一條:
互聯網需要全文(wén)檢索 |
|
下一條:
搜索引擎的技(jì )術發展趨勢
|
|
 |
|