注意:原創文(wén)章,無版權,可(kě)以任意轉載,但必須完整轉載全文(wén)、url和内部解釋性鏈接
WEB結構化信息抽取就是将網頁(yè)中(zhōng)的非結構化數據按照一定的需求抽取成結構化數據。是垂直搜索引擎和通用(yòng)搜索引擎最大的差别。 如:比較購(gòu)物(wù)搜索那就需要抓取網頁(yè)後,對網頁(yè)中(zhōng)的商(shāng)品信息進行抽取,抽取出商(shāng)品名(míng)稱、價格、簡介……甚至可(kě)以進一步将筆(bǐ)記本簡介細分(fēn)成“品牌、型号、CPU、内存、硬盤、顯示屏、……” 房産(chǎn)信息搜索那就應該抽取出那應該抽取出:類型、地域、地址、房型、面積、裝(zhuāng)修情況、租金、聯系人、聯系電(diàn)話…… 公(gōng)司企業信息搜索那就應該抽取出:公(gōng)司名(míng)稱、地址、電(diàn)話、聯系人…… ………… 結構化信息抽取有(yǒu)兩種方式可(kě)以實現,比較簡單的是模闆方式,還有(yǒu)一種是對網頁(yè)不依賴的網頁(yè)庫級的結構化信息抽取方式。
模闆方式是事先對特定的網頁(yè)進行配置模闆,抽取模闆中(zhōng)設置好的需要的信息,可(kě)以針對有(yǒu)限個網站的信息進行精(jīng)确的采集。 特點:簡單、精(jīng)确、技(jì )術難度低、方便快速部署。 缺點:需要針對每一個信息源的網站模闆進行單獨的設定在信息源多(duō)樣性的情況下維護量巨大是不可(kě)完成的維護量。所以這種方式适合少量信息源的信息處理(lǐ),不是搜索引擎級的應用(yòng),很(hěn)難滿足用(yòng)戶對查全率的需求。
網頁(yè)庫結構化信息抽取是采用(yòng)頁(yè)面結構分(fēn)析與智能(néng)節點分(fēn)析轉換的方法,自動抽取結構化的數據。 特點:可(kě)對任意的正常網頁(yè)進行抽取,完全自動化,不用(yòng)對具(jù)體(tǐ)網站事先生成模闆,對每個網頁(yè)自動實時得生成抽取規則,完全不需要人工(gōng)幹預。智能(néng)抽取準确率高,不是機械的匹配,采用(yòng)智能(néng)分(fēn)析技(jì )術,準确率能(néng)達到98%以上。能(néng)保證較快處理(lǐ)速度,由于采用(yòng)頁(yè)面的智能(néng)分(fēn)析技(jì )術,先去除了垃圾塊,降低分(fēn)析的壓力,是處理(lǐ)速度大大提高。通用(yòng)性較好,易于維護,隻需設定參數、配置相應的特征就能(néng)改進相應的抽取性能(néng);一般的非專業人員經過簡單培訓就能(néng)維護。 缺點:技(jì )術難度高,前期研發成本高,周期長(cháng)。适合網頁(yè)庫級别結構化數據采集和搜索的高端應用(yòng)。
我們的技(jì )術是對網頁(yè)不依賴的web結構化信息抽取技(jì )術,适合高端的垂直搜索應用(yòng)或者高端的競争情報分(fēn)析系統。
|