信息檢索的核心支撐技(jì )術--鄭州征途信息網--網站建設,河南網站建設,鄭州網站建設.網站推薦,河南網站推廣,鄭州網站推廣
建站流程 建站意向表 客戶案例 付款方式 聯系我們 加入收藏
河南鄭州網站建設銷售咨詢電(diàn)話:13073728811(24小(xiǎo)時值班)  客服電(diàn)話0371-60988783
首 頁(yè)網站建設網站推廣 5107網站伴侶 域名(míng)注冊 虛拟主機 企業郵局 關于我們 合作(zuò)代理(lǐ) 網上商(shāng)店(diàn) 企業郵箱
征途新(xīn)聞
公(gōng)司新(xīn)聞
行業新(xīn)聞
服務(wù)項目
網站建設 網站推廣
域名(míng)注冊 虛拟主機
網站伴侶 運營維護
聯系我們

聯系電(diàn)話:
0371-60273020       60273015
      60273016
      60273017
傳    真:
0371-60273018

 
當前位置:首 頁(yè) > 信息檢索的核心支撐技(jì )術
信息檢索的核心支撐技(jì )術
發布日期:2007-5-25
關鍵詞:信息檢索

  (Information Retrieval),通常指文(wén)本信息檢索,包括信息的存儲、組織、表現、查詢、存取等各個方面,其核心為(wèi)文(wén)本信息的索引和檢索。從曆史上看,信息檢索經曆了手工(gōng)檢索、計算機檢索到目前網絡化、智能(néng)化檢索等多(duō)個發展階段。

  目前,信息檢索已經發展到網絡化和智能(néng)化的階段。信息檢索的對象從相對封閉、穩定一緻、由獨立數據庫集中(zhōng)管理(lǐ)的信息内容擴展到開放、動态、更新(xīn)快、分(fēn)布廣泛、管理(lǐ)松散的Web内容;信息檢索的用(yòng)戶也由原來的情報專業人員擴展到包括商(shāng)務(wù)人員、管理(lǐ)人員、教師學(xué)生、各專業人士等在内的普通大衆,他(tā)們對信息檢索從結果到方式提出了更高、更多(duō)樣化的要求。适應網絡化、智能(néng)化以及個性化的需要是目前信息檢索技(jì )術發展的新(xīn)趨勢。

  信息檢索技(jì )術的熱點

  ◆ 智能(néng)檢索或知識檢索

  傳統的全文(wén)檢索技(jì )術基于關鍵詞匹配進行檢索,往往存在查不全、查不準、檢索質(zhì)量不高的現象,特别是在網絡信息時代,利用(yòng)關鍵詞匹配很(hěn)難滿足人們檢索的要求。智能(néng)檢索利用(yòng)分(fēn)詞詞典、同義詞典,同音詞典改善檢索效果,比如用(yòng)戶查詢“計算機”,與“電(diàn)腦”相關的信息也能(néng)檢索出來;進一步還可(kě)在知識層面或者說概念層面上輔助查詢,通過主題詞典、上下位詞典、相關同級詞典,形成一個知識體(tǐ)系或概念網絡,給予用(yòng)戶智能(néng)知識提示,最終幫助用(yòng)戶獲得最佳的檢索效果,比如用(yòng)戶可(kě)以進一步縮小(xiǎo)查詢範圍至“微機”、“服務(wù)器”或擴大查詢至“信息技(jì )術”或查詢相關的“電(diàn)子技(jì )術”、“軟件”、“計算機應用(yòng)”等範疇。另外,智能(néng)檢索還包括歧義信息和檢索處理(lǐ),如“蘋果”,究竟是指水果還是電(diàn)腦品牌,“華人”與“中(zhōng)華人民(mín)共和國(guó)”的區(qū)分(fēn),将通過歧義知識描述庫、全文(wén)索引、用(yòng)戶檢索上下文(wén)分(fēn)析以及用(yòng)戶相關性反饋等技(jì )術結合處理(lǐ),高效、準确地反饋給用(yòng)戶最需要的信息。

  ◆ 知識挖掘

  目前主要指文(wén)本挖掘技(jì )術的發展,目的是幫助人們更好的發現、組織、表示信息,提取知識,滿足信息檢索的高層次需要。 知識挖掘包括摘要、分(fēn)類(聚類)和相似性檢索等方面。

  自動摘要就是利用(yòng)計算機自動地從原始文(wén)獻中(zhōng)提取文(wén)摘。在信息檢索中(zhōng),自動摘要有(yǒu)助于用(yòng)戶快速評價檢索結果的相關程度,在信息服務(wù)中(zhōng),自動摘要有(yǒu)助于多(duō)種形式的内容分(fēn)發,如發往PDA、手機等。相似性檢索技(jì )術基于文(wén)檔内容特征檢索與其相似或相關的文(wén)檔,是實現用(yòng)戶個性化相關反饋的基礎,也可(kě)用(yòng)于去重分(fēn)析。自動分(fēn)類可(kě)基于統計或規則,經過機器學(xué)習形成預定義分(fēn)類樹,再根據文(wén)檔的内容特征将其歸類;自動聚類則是根據文(wén)檔内容的相關程度進行分(fēn)組歸并。自動分(fēn)類(聚類)在信息組織、導航方面非常有(yǒu)用(yòng)。

  ◆ 異構信息整合檢索和全息檢索

  在信息檢索分(fēn)布化和網絡化的趨勢下,信息檢索系統的開放性和集成性要求越來越高,需要能(néng)夠檢索和整合不同來源和結構的信息,這是異構信息檢索技(jì )術發展的基點,包括支持各種格式化文(wén)件,如TEXT、HTML、XML、RTF、MS Office、PDF、PS2/PS、MARC、ISO2709等處理(lǐ)和檢索;支持多(duō)語種信息的檢索;支持結構化數據、半結構化數據及非結構化數據的統一處理(lǐ);和關系數據庫檢索的無縫集成以及其他(tā)開放檢索接口的集成等。所謂“全息檢索”的概念就是支持一切格式和方式的檢索,從目前實踐來講,發展到異構信息整合檢索的層面,基于自然語言理(lǐ)解的人機交互以及多(duō)媒體(tǐ)信息檢索整合等方面尚有(yǒu)待取得進一步突破。

  另外,從工(gōng)程實踐角度,綜合采用(yòng)内存和外部存儲的多(duō)級緩存、分(fēn)布式群集和負載均衡技(jì )術也是信息檢索技(jì )術發展的重要方面。

  随着互聯網的普及和電(diàn)子商(shāng)務(wù)的發展,企業和個人可(kě)獲取、需處理(lǐ)的信息量呈爆發式增長(cháng),而且其中(zhōng)絕大部分(fēn)都是非結構化和半結構化數據。内容管理(lǐ)的重要性日益凸現,而信息檢索作(zuò)為(wèi)内容管理(lǐ)的核心支撐技(jì )術,随着内容管理(lǐ)的發展和普及,亦将應用(yòng)到各個領域,成為(wèi)人們日常工(gōng)作(zuò)生活的密切夥伴。

  信息檢索不等于 搜索引擎

  互聯網的發展明顯地促進了信息檢索技(jì )術的發展和應用(yòng),一大批搜索引擎産(chǎn)品誕生,為(wèi)網民(mín)提供了很(hěn)好的快速信息獲取和網絡信息導航工(gōng)具(jù),但是将信息檢索等同于使用(yòng)搜索引擎就陷入了誤區(qū)。搜索引擎技(jì )術中(zhōng)也普遍采用(yòng)了全文(wén)信息檢索技(jì )術,但互聯網信息搜索和企業信息搜索是不同的。

  一是數據量。傳統信息檢索系統一般索引庫規模多(duō)在GB級,但互聯網網頁(yè)搜索需要處理(lǐ)幾千萬上億的網頁(yè),搜索引擎的基本策略都是采用(yòng)檢索服務(wù)器群集,對大多(duō)數企業應用(yòng)是不合适和不必要的,并不适用(yòng)于企業應用(yòng)。

  二是内容相關性。信息太多(duō),查準和排序就特别重要,Google等搜索引擎發展了網頁(yè)鏈接分(fēn)析技(jì )術,根據互聯網上網頁(yè)被連接次數作(zuò)為(wèi)重要性評判的依據。但企業網站内部的網頁(yè)鏈接由網站内容采編發布系統決定,其鏈接次數存在偶然因素,不能(néng)作(zuò)為(wèi)判别重要性的依據。真正的企業應用(yòng)的檢索要求基于内容的相關性排序,就是說,和檢索要求最相關的信息排在檢索結果的前面,鏈接分(fēn)析技(jì )術此種排序基本不起作(zuò)用(yòng)。

  三是實時性。搜索引擎的索引生成和檢索服務(wù)是分(fēn)開的,周期性更新(xīn)和同步數據,大的搜索引擎的更新(xīn)周期需要以周乃至月度量;而企業信息檢索需要實時反映内外信息變化,搜索引擎系統機制并不能(néng)适應企業中(zhōng)動态性數據增長(cháng)和修改的要求。

  四是安(ān)全性。互聯網搜索引擎都基于文(wén)件系統,但企業應用(yòng)中(zhōng)内容一般均會安(ān)全和集中(zhōng)地存放在數據倉庫中(zhōng)以保證數據安(ān)全和管理(lǐ)的要求。

  五是個性化和智能(néng)化。由于搜索引擎數據和客戶規模的限制,相關反饋、知識檢索、知識挖掘等計算密集的智能(néng)技(jì )術很(hěn)難應用(yòng),而專門針對企業的信息檢索應用(yòng)能(néng)在智能(néng)化和個性走得更遠(yuǎn)。

  信息檢索的起源

  信息檢索起源于圖書館的參考咨詢和文(wén)摘索引工(gōng)作(zuò),從19世紀下半葉首先開始發展,至20世紀40年代,索引和檢索成已為(wèi)圖書館獨立的工(gōng)具(jù)和用(yòng)戶服務(wù)項目。

  随着1946年世界上第一台電(diàn)子計算機問世,計算機技(jì )術逐步走進信息檢索領域,并與信息檢索理(lǐ)論緊密結合起來;脫機批量情報檢索系統、聯機實時情報檢索系統相繼研制成功并商(shāng)業化,20世紀60年代到80年代,在信息處理(lǐ)技(jì )術、通訊技(jì )術、計算機和數據庫技(jì )術的推動下,信息檢索在教育、軍事和商(shāng)業等各領域高速發展,得到了廣泛的應用(yòng)。Dialog國(guó)際聯機情報檢索系統是這一時期的信息檢索領域的代表,至今仍是世界上最著名(míng)的系統之一。
上一條: 互聯網需要全文(wén)檢索
  下一條: 搜索引擎的技(jì )術發展趨勢
征途介紹 | 征途新(xīn)聞 | 客戶服務(wù) | 版權聲明 | 友情鏈接 | 聯系我們 | 網站建設 | 網站推廣
版權所有(yǒu):鄭州征途信息技(jì )術有(yǒu)限公(gōng)司 地址:鄭州市管城區(qū)地鐵2号線(xiàn)二裏崗B口斜對面中(zhōng)國(guó)郵政鄭州跨境電(diàn)商(shāng)産(chǎn)業園2樓210
聯系電(diàn)話:0371-60988783 13073728811 京ICP證000000号

本站關鍵詞:鄭州網站建設公(gōng)司 鄭州網站建設 鄭州電(diàn)子商(shāng)務(wù) 鄭州網站設計 鄭州網站策劃 河南鄭州網站建設 鄭州網站制作(zuò) 鄭州建網站
鄭州網站制作(zuò) 鄭州做網站的公(gōng)司 網站托管 鄭州 鄭州網絡公(gōng)司 新(xīn)鄉網絡公(gōng)司 河南網絡公(gōng)司 洛陽網絡公(gōng)司 網站建設 電(diàn)子商(shāng)務(wù)網站
建網站 網站設計 鄭州虛拟主機 新(xīn)鄉網站建設 鄭州 網站制作(zuò) 安(ān)陽網絡公(gōng)司 焦作(zuò)網絡公(gōng)司 網頁(yè)設計 鄭州網頁(yè)設計 鄭州網站制作(zuò) 在線(xiàn)客服
網頁(yè)制作(zuò) 網站制作(zuò) 河南網站建設 烽火台 網絡推廣 鄭州網站推廣 網站建設方案 網絡營銷 河南網站建設公(gōng)司 鄭州5107網站伴侶