WEB網頁(yè)結構化信息抽取技(jì )術介紹(網頁(yè)庫級)--鄭州征途信息網--網站建設,河南網站建設,鄭州網站建設.網站推薦,河南網站推廣,鄭州網站推廣

建站流程

建站意向表

客戶案例

付款方式

聯系我們

加入收藏

河南鄭州網站建設銷售咨詢電(diàn)話：13073728811(24小(xiǎo)時值班) 客服電(diàn)話0371-60988783

首頁(yè)網站建設網站推廣 5107網站伴侶域名(míng)注冊虛拟主機企業郵局關于我們合作(zuò)代理(lǐ) 網上商(shāng)店(diàn) 企業郵箱

征途新(xīn)聞

公(gōng)司新(xīn)聞

行業新(xīn)聞

服務(wù)項目

網站建設	網站推廣
域名(míng)注冊	虛拟主機
網站伴侶	運營維護

聯系我們

聯系電(diàn)話：
0371－60273020       60273015
      60273016
      60273017
傳    真：
0371－60273018

當前位置：首頁(yè) > WEB網頁(yè)結構化信息抽取

WEB網頁(yè)結構化信息抽取技(jì )術介紹(網頁(yè)庫級)

發布日期：2007-5-25

關鍵詞：結構化信息抽取，信息抽取

注意：原創文(wén)章，無版權，可(kě)以任意轉載，但必須完整轉載全文(wén)、url和内部解釋性鏈接

WEB結構化信息抽取就是将網頁(yè)中(zhōng)的非結構化數據按照一定的需求抽取成結構化數據。是垂直搜索引擎和通用(yòng)搜索引擎最大的差别。
　　如：比較購(gòu)物(wù)搜索那就需要抓取網頁(yè)後，對網頁(yè)中(zhōng)的商(shāng)品信息進行抽取，抽取出商(shāng)品名(míng)稱、價格、簡介……甚至可(kě)以進一步将筆(bǐ)記本簡介細分(fēn)成“品牌、型号、CPU、内存、硬盤、顯示屏、……”
　　房産(chǎn)信息搜索那就應該抽取出那應該抽取出：類型、地域、地址、房型、面積、裝(zhuāng)修情況、租金、聯系人、聯系電(diàn)話……
　　公(gōng)司企業信息搜索那就應該抽取出：公(gōng)司名(míng)稱、地址、電(diàn)話、聯系人……
　　…………
　　結構化信息抽取有(yǒu)兩種方式可(kě)以實現，比較簡單的是模闆方式，還有(yǒu)一種是對網頁(yè)不依賴的網頁(yè)庫級的結構化信息抽取方式。

　　模闆方式是事先對特定的網頁(yè)進行配置模闆，抽取模闆中(zhōng)設置好的需要的信息，可(kě)以針對有(yǒu)限個網站的信息進行精(jīng)确的采集。
　　特點：簡單、精(jīng)确、技(jì )術難度低、方便快速部署。
　　缺點：需要針對每一個信息源的網站模闆進行單獨的設定在信息源多(duō)樣性的情況下維護量巨大是不可(kě)完成的維護量。所以這種方式适合少量信息源的信息處理(lǐ)，不是搜索引擎級的應用(yòng)，很(hěn)難滿足用(yòng)戶對查全率的需求。

網頁(yè)庫結構化信息抽取是采用(yòng)頁(yè)面結構分(fēn)析與智能(néng)節點分(fēn)析轉換的方法，自動抽取結構化的數據。
　　特點：可(kě)對任意的正常網頁(yè)進行抽取，完全自動化，不用(yòng)對具(jù)體(tǐ)網站事先生成模闆，對每個網頁(yè)自動實時得生成抽取規則，完全不需要人工(gōng)幹預。智能(néng)抽取準确率高，不是機械的匹配，采用(yòng)智能(néng)分(fēn)析技(jì )術，準确率能(néng)達到98%以上。能(néng)保證較快處理(lǐ)速度，由于采用(yòng)頁(yè)面的智能(néng)分(fēn)析技(jì )術，先去除了垃圾塊，降低分(fēn)析的壓力，是處理(lǐ)速度大大提高。通用(yòng)性較好，易于維護，隻需設定參數、配置相應的特征就能(néng)改進相應的抽取性能(néng)；一般的非專業人員經過簡單培訓就能(néng)維護。
　　缺點：技(jì )術難度高，前期研發成本高，周期長(cháng)。适合網頁(yè)庫級别結構化數據采集和搜索的高端應用(yòng)。

我們的技(jì )術是對網頁(yè)不依賴的web結構化信息抽取技(jì )術，适合高端的垂直搜索應用(yòng)或者高端的競争情報分(fēn)析系統。

上一條: 全套垂直搜索引擎技(jì )術

下一條: 什麽是垂直搜索？[原創]

本站關鍵詞：鄭州網站建設公(gōng)司　鄭州網站建設　鄭州電(diàn)子商(shāng)務(wù)　鄭州網站設計鄭州網站策劃　河南鄭州網站建設　鄭州網站制作(zuò)　鄭州建網站
鄭州網站制作(zuò)　鄭州做網站的公(gōng)司　網站托管　鄭州　鄭州網絡公(gōng)司　新(xīn)鄉網絡公(gōng)司　河南網絡公(gōng)司　洛陽網絡公(gōng)司　網站建設　電(diàn)子商(shāng)務(wù)網站
建網站網站設計鄭州虛拟主機新(xīn)鄉網站建設鄭州網站制作(zuò) 安(ān)陽網絡公(gōng)司焦作(zuò)網絡公(gōng)司網頁(yè)設計鄭州網頁(yè)設計鄭州網站制作(zuò) 在線(xiàn)客服
網頁(yè)制作(zuò) 網站制作(zuò) 河南網站建設烽火台　網絡推廣鄭州網站推廣　網站建設方案　網絡營銷　河南網站建設公(gōng)司　鄭州5107網站伴侶