一、互聯網信息采集與處理(lǐ)檢索系統
1. 新(xīn)聞搜索引擎SPIDER
2. 網頁(yè)搜索引擎SPIDER
3. 定向專業搜索SPIDER
4. 基于視覺的正文(wén)智能(néng)提取模塊(自動正文(wén)提取)
5. 智能(néng)摘要提取模塊
6. 去重模塊
7. 智能(néng)分(fēn)類模塊
8. 檢索前端類聚模塊
9. 分(fēn)詞模塊
10. 索引模塊
11. 最大可(kě)支持10TB以上數據容量,可(kě)分(fēn)層建索引庫、分(fēn)布索引、分(fēn)布檢索、分(fēn)布采集處理(lǐ)。
二、WEB結構化信息抽取技(jì )術(格式化數據抽取)
應用(yòng)于垂直搜索引擎的重要技(jì )術,抽取出結構化數據,對具(jù)體(tǐ)網頁(yè)無依賴,直接針對數據類型進行抽取。
元數據(結構化信息提取) 采集技(jì )術:模闆方式,作(zuò)為(wèi) WEB結構化信息抽取技(jì )術的補充。
三、自然語言的結構化信息抽取技(jì )術
應用(yòng)于垂直搜索引擎,情報分(fēn)析處理(lǐ)(科(kē)研産(chǎn)品)
|