網(wǎng)頁(yè)信息提取與凈化的研究.rar

RAR格式版權(quán)申訴手機(jī)打開(kāi)展開(kāi)

網(wǎng)頁(yè)信息提取與凈化的研究,（63頁(yè)）內(nèi)容提要信息提取是搜索引擎最關(guān)鍵的一個(gè)步驟，怎么樣從互聯(lián)網(wǎng)這個(gè)信息大平臺(tái)最精確的獲得有用信息已成為當(dāng)前搜索引擎研究的熱點(diǎn)。本文介紹了幾種最新的信息提取方法，在此基礎(chǔ)上提出了基于dom樹(shù)的正文提取方法。把底層html文檔解析成為dom樹(shù)的形式，根據(jù)用戶(hù)設(shè)置參數(shù)來(lái)設(shè)置過(guò)濾器，該過(guò)濾器對(duì)每一個(gè)節(jié)點(diǎn)進(jìn)行判斷，如果節(jié)點(diǎn)...
編號(hào):9-168776大小:1.73M
分類(lèi): 研究報(bào)告>可行性報(bào)告

該文檔為壓縮文件,包含的文件列表如下:

內(nèi)容介紹

原文檔由會(huì)員白癡學(xué)東西發(fā)布

（63頁(yè)）內(nèi)容提要
信息提取是搜索引擎最關(guān)鍵的一個(gè)步驟，怎么樣從互聯(lián)網(wǎng)這個(gè)信息
大平臺(tái)最精確的獲得有用信息已成為當(dāng)前搜索引擎研究的熱點(diǎn)。
本文介紹了幾種最新的信息提取方法，在此基礎(chǔ)上提出了基于
DOM樹(shù)的正文提取方法。把底層HTML文檔解析成為DOM樹(shù)的形式，
根據(jù)用戶(hù)設(shè)置參數(shù)來(lái)設(shè)置過(guò)濾器，該過(guò)濾器對(duì)每一個(gè)節(jié)點(diǎn)進(jìn)行判斷，如
果節(jié)點(diǎn)與用戶(hù)設(shè)置參數(shù)匹配則對(duì)該節(jié)點(diǎn)進(jìn)行記錄、修改屬性以及刪除的
操作。另外本文進(jìn)一步提出了基于DOM樹(shù)的網(wǎng)絡(luò)噪聲凈化方法，針對(duì)
同一模板產(chǎn)生的網(wǎng)頁(yè)集自動(dòng)檢驗(yàn)出噪聲存在的位置。該方法以DOM樹(shù)
節(jié)點(diǎn)為操作對(duì)象，計(jì)算出每個(gè)節(jié)點(diǎn)的信息量，通過(guò)信息量的大小來(lái)判斷
節(jié)點(diǎn)是否屬于噪聲。
基于DOM樹(shù)的正文提取方法簡(jiǎn)便可行。相對(duì)于本文所介紹的幾種
方法，DOM樹(shù)的正文提取的側(cè)重點(diǎn)是不同的，其他的提取方法都是通
過(guò)討論如何判斷正文節(jié)點(diǎn)或者正文塊實(shí)現(xiàn)內(nèi)容過(guò)濾，本文則把提取的重
點(diǎn)放在剔除對(duì)用戶(hù)來(lái)說(shuō)無(wú)用的節(jié)點(diǎn)上面，這是一個(gè)方向上的變化。
關(guān)鍵詞：Web信息，DOM樹(shù)，正文提取，網(wǎng)絡(luò)凈化
目錄
第一章前言........................................................................
1.1研究意義.............................................................................
1.2搜索引擎介紹.....................................................................
1.3正文提取的重要性.............................................................
1.4小結(jié)..............................................................................
第二章正文提取........................................................................
2.1正文提取的幾種方法介紹.................................................
2.2基于DOM樹(shù)的正文提取.....................................................
2.3正文提取器功能介紹.........................................................
2.4正文提取器實(shí)現(xiàn).................................................................
2.5結(jié)果分析.............................................................................
2.6小結(jié)...............................................................................
第三章網(wǎng)頁(yè)凈化噪聲................................................................
3.1網(wǎng)頁(yè)噪聲凈化的幾種常用方法.........................................
3.2基于DOM樹(shù)的網(wǎng)頁(yè)噪聲凈化.............................................
3.3數(shù)據(jù)分析.............................................................................
3.3小結(jié)...............................................................................
第四章網(wǎng)頁(yè)分類(lèi)........................................................................
4.1文本分類(lèi)介紹.....................................................................
4.2網(wǎng)頁(yè)分類(lèi)的幾個(gè)研究方向.................................................
4.3網(wǎng)頁(yè)分類(lèi)的改進(jìn)方法.........................................................
4.4小結(jié)...............................................................................
第五章總結(jié)與展望....................................................................
5.1全文總結(jié).............................................................................5.2進(jìn)一步的工作.....................................................................
參考文獻(xiàn)......................................................................................
摘要......................................................................................
ABSTRACT.................................................................................
致謝......................................................................................

国产精品婷婷久久久久久,国产精品美女久久久浪潮av,草草国产,人妻精品久久无码专区精东影业

網(wǎng)頁(yè)信息提取與凈化的研究.rar

該文檔為壓縮文件,包含的文件列表如下:

內(nèi)容介紹

TA們正在看...

相關(guān)文檔

官方微信

支付寶紅包