網(wǎng)頁信息提取與凈化的研究.rar
網(wǎng)頁信息提取與凈化的研究,(63頁)內(nèi)容提要信息提取是搜索引擎最關(guān)鍵的一個步驟,怎么樣從互聯(lián)網(wǎng)這個信息大平臺最精確的獲得有用信息已成為當(dāng)前搜索引擎研究的熱點。本文介紹了幾種最新的信息提取方法,在此基礎(chǔ)上提出了基于dom樹的正文提取方法。把底層html文檔解析成為dom樹的形式,根據(jù)用戶設(shè)置參數(shù)來設(shè)置過濾器,該過濾器對每一個節(jié)點進(jìn)行判斷,如果節(jié)點...
該文檔為壓縮文件,包含的文件列表如下:
內(nèi)容介紹
原文檔由會員 白癡學(xué)東西 發(fā)布
(63頁)內(nèi)容提要
信息提取是搜索引擎最關(guān)鍵的一個步驟,怎么樣從互聯(lián)網(wǎng)這個信息
大平臺最精確的獲得有用信息已成為當(dāng)前搜索引擎研究的熱點。
本文介紹了幾種最新的信息提取方法,在此基礎(chǔ)上提出了基于
DOM樹的正文提取方法。把底層HTML文檔解析成為DOM樹的形式,
根據(jù)用戶設(shè)置參數(shù)來設(shè)置過濾器,該過濾器對每一個節(jié)點進(jìn)行判斷,如
果節(jié)點與用戶設(shè)置參數(shù)匹配則對該節(jié)點進(jìn)行記錄、修改屬性以及刪除的
操作。另外本文進(jìn)一步提出了基于DOM樹的網(wǎng)絡(luò)噪聲凈化方法,針對
同一模板產(chǎn)生的網(wǎng)頁集自動檢驗出噪聲存在的位置。該方法以DOM樹
節(jié)點為操作對象,計算出每個節(jié)點的信息量,通過信息量的大小來判斷
節(jié)點是否屬于噪聲。
基于DOM樹的正文提取方法簡便可行。相對于本文所介紹的幾種
方法,DOM樹的正文提取的側(cè)重點是不同的,其他的提取方法都是通
過討論如何判斷正文節(jié)點或者正文塊實現(xiàn)內(nèi)容過濾,本文則把提取的重
點放在剔除對用戶來說無用的節(jié)點上面,這是一個方向上的變化。
關(guān)鍵詞:Web信息,DOM樹,正文提取,網(wǎng)絡(luò)凈化
目錄
第一章前言........................................................................
1.1研究意義.............................................................................
1.2搜索引擎介紹.....................................................................
1.3正文提取的重要性.............................................................
1.4小結(jié)..............................................................................
第二章正文提取........................................................................
2.1正文提取的幾種方法介紹.................................................
2.2基于DOM樹的正文提取.....................................................
2.3正文提取器功能介紹.........................................................
2.4正文提取器實現(xiàn).................................................................
2.5結(jié)果分析.............................................................................
2.6小結(jié)...............................................................................
第三章網(wǎng)頁凈化噪聲................................................................
3.1網(wǎng)頁噪聲凈化的幾種常用方法.........................................
3.2基于DOM樹的網(wǎng)頁噪聲凈化.............................................
3.3數(shù)據(jù)分析.............................................................................
3.3小結(jié)...............................................................................
第四章網(wǎng)頁分類........................................................................
4.1文本分類介紹.....................................................................
4.2網(wǎng)頁分類的幾個研究方向.................................................
4.3網(wǎng)頁分類的改進(jìn)方法.........................................................
4.4小結(jié)...............................................................................
第五章總結(jié)與展望....................................................................
5.1全文總結(jié).............................................................................5.2進(jìn)一步的工作.....................................................................
參考文獻(xiàn)......................................................................................
摘要......................................................................................
ABSTRACT.................................................................................
致謝......................................................................................
信息提取是搜索引擎最關(guān)鍵的一個步驟,怎么樣從互聯(lián)網(wǎng)這個信息
大平臺最精確的獲得有用信息已成為當(dāng)前搜索引擎研究的熱點。
本文介紹了幾種最新的信息提取方法,在此基礎(chǔ)上提出了基于
DOM樹的正文提取方法。把底層HTML文檔解析成為DOM樹的形式,
根據(jù)用戶設(shè)置參數(shù)來設(shè)置過濾器,該過濾器對每一個節(jié)點進(jìn)行判斷,如
果節(jié)點與用戶設(shè)置參數(shù)匹配則對該節(jié)點進(jìn)行記錄、修改屬性以及刪除的
操作。另外本文進(jìn)一步提出了基于DOM樹的網(wǎng)絡(luò)噪聲凈化方法,針對
同一模板產(chǎn)生的網(wǎng)頁集自動檢驗出噪聲存在的位置。該方法以DOM樹
節(jié)點為操作對象,計算出每個節(jié)點的信息量,通過信息量的大小來判斷
節(jié)點是否屬于噪聲。
基于DOM樹的正文提取方法簡便可行。相對于本文所介紹的幾種
方法,DOM樹的正文提取的側(cè)重點是不同的,其他的提取方法都是通
過討論如何判斷正文節(jié)點或者正文塊實現(xiàn)內(nèi)容過濾,本文則把提取的重
點放在剔除對用戶來說無用的節(jié)點上面,這是一個方向上的變化。
關(guān)鍵詞:Web信息,DOM樹,正文提取,網(wǎng)絡(luò)凈化
目錄
第一章前言........................................................................
1.1研究意義.............................................................................
1.2搜索引擎介紹.....................................................................
1.3正文提取的重要性.............................................................
1.4小結(jié)..............................................................................
第二章正文提取........................................................................
2.1正文提取的幾種方法介紹.................................................
2.2基于DOM樹的正文提取.....................................................
2.3正文提取器功能介紹.........................................................
2.4正文提取器實現(xiàn).................................................................
2.5結(jié)果分析.............................................................................
2.6小結(jié)...............................................................................
第三章網(wǎng)頁凈化噪聲................................................................
3.1網(wǎng)頁噪聲凈化的幾種常用方法.........................................
3.2基于DOM樹的網(wǎng)頁噪聲凈化.............................................
3.3數(shù)據(jù)分析.............................................................................
3.3小結(jié)...............................................................................
第四章網(wǎng)頁分類........................................................................
4.1文本分類介紹.....................................................................
4.2網(wǎng)頁分類的幾個研究方向.................................................
4.3網(wǎng)頁分類的改進(jìn)方法.........................................................
4.4小結(jié)...............................................................................
第五章總結(jié)與展望....................................................................
5.1全文總結(jié).............................................................................5.2進(jìn)一步的工作.....................................................................
參考文獻(xiàn)......................................................................................
摘要......................................................................................
ABSTRACT.................................................................................
致謝......................................................................................