網(wǎng)頁凈化方法的研究與實(shí)現(xiàn)_獨(dú)家原創(chuàng).doc
約37頁DOC格式手機(jī)打開展開
網(wǎng)頁凈化方法的研究與實(shí)現(xiàn)_獨(dú)家原創(chuàng),網(wǎng)頁凈化方法的研究與實(shí)現(xiàn)1.3萬字自己原創(chuàng)的畢業(yè)論文,已經(jīng)通過校內(nèi)系統(tǒng)檢測(cè),重復(fù)率低,僅在本站獨(dú)家出售,大家放心下載使用摘要 隨著internet的快速發(fā)展,萬維網(wǎng)已經(jīng)發(fā)展成為一個(gè)龐大的信息空間,為人們提供了極其豐富的信息資源,也使網(wǎng)頁數(shù)據(jù)成為目前各種應(yīng)用和研究的重要數(shù)據(jù)源之一。網(wǎng)頁數(shù)據(jù)通常包含了各種內(nèi)容, 如廣告、導(dǎo)...
內(nèi)容介紹
此文檔由會(huì)員 小丑88 發(fā)布
網(wǎng)頁凈化方法的研究與實(shí)現(xiàn)
1.3萬字
自己原創(chuàng)的畢業(yè)論文,已經(jīng)通過校內(nèi)系統(tǒng)檢測(cè),重復(fù)率低,僅在本站獨(dú)家出售,大家放心下載使用
摘要 隨著Internet的快速發(fā)展,萬維網(wǎng)已經(jīng)發(fā)展成為一個(gè)龐大的信息空間,為人們提供了極其豐富的信息資源,也使網(wǎng)頁數(shù)據(jù)成為目前各種應(yīng)用和研究的重要數(shù)據(jù)源之一。網(wǎng)頁數(shù)據(jù)通常包含了各種內(nèi)容, 如廣告、導(dǎo)航條、相關(guān)鏈接、正文等, 然而對(duì)于不同的研究和應(yīng)用來說, 并非所有內(nèi)容都是必需的, 相反, 不相關(guān)的內(nèi)容反而會(huì)影響研究以及應(yīng)用的效果和效率, 因此網(wǎng)頁去噪是一個(gè)基礎(chǔ)問題, 是提高Web應(yīng)用的程序性能的關(guān)鍵技術(shù)之一,也是目前熱點(diǎn)研究的問題。
本文首先對(duì)網(wǎng)頁去噪的必要性進(jìn)行了簡(jiǎn)要說明, 并對(duì)網(wǎng)頁去噪進(jìn)行了定義和分類, 然后簡(jiǎn)單概介紹了幾種網(wǎng)頁去噪的方法及其特點(diǎn),接著深入分析了一種基于模板的網(wǎng)頁凈化方法。該方法提出了一種數(shù)據(jù)結(jié)構(gòu)——風(fēng)格樹(Style Tree,SST),來表示一個(gè)網(wǎng)站給定的網(wǎng)頁文檔集合的結(jié)構(gòu)和內(nèi)容。通過遍歷網(wǎng)站風(fēng)格樹(Site Style Tree ,SST)來計(jì)算出SST樹中每個(gè)元素節(jié)點(diǎn)它自身和它所有的子節(jié)點(diǎn)的重要性,然后和指定的閾值進(jìn)行比較,確定哪些是噪音,再把它們刪除。
實(shí)驗(yàn)表明,本文重點(diǎn)提出的算法能夠?qū)δ0逍偷木W(wǎng)頁進(jìn)行有效的凈化。
關(guān)鍵詞 網(wǎng)頁去噪 信息提取 模板 萬維網(wǎng)
Study and implementation of the algorithm Webpage purification
Abstract Along with the rapid development of Internet,WWW (world wide web) has become a huge information web-space providing valuable information resources. What is more, the rapid development of the Internet has made a variety of Web applications and Web data, which become the major source of data for a lot of research. A Web page usually consists of subject matter, in addition, there including advertising, navigation bar, related links, copyright information, welcome message and other topics unrelated with the contents as well. However, for different kinds of studies and applications, not all content is very necessary; on the contrary, the unrelated content will affect the effectiveness and efficiency of the research and applications. Therefore Web page cleaning is a key technique to improve the service qualities of Web application systems, and it is a highlighted topic of information retrieva l with booming search engines.
At the beginning, this paper gives a brief introduction to the necessity of Web page cleaning and its related concepts. Then a simple overview introduces several methods of Webpage denoising and its characteristics, after in-depth analysis of a purification method based on template Webpage. The method proposes a data structure -- style tree (Style Tree, SST), to represent the structure and content of a web site given Webpage document collection. By traversing the site style tree (Site Style Tree, SST) to calculate the importance of each element of the SST node in the tree itself and all its child nodes, then compare and a specified threshold, determining what is noise.
From the experimental results ,we can find this paper puts forward the algorithm of template type Webpage effectively purify.
Key words Web page cleaning information extraction template world wide web
目 錄
第一章 引 言 1
1.1 研究背景 1
1.2 研究現(xiàn)狀 1
1.3 研究?jī)?nèi)容 1
1.4 論文結(jié)構(gòu) 2
第二章 相關(guān)知識(shí) 3
2.1 網(wǎng)頁正文的定義及分類 3
2.2 網(wǎng)頁表示 4
2.3 HTML 4
2.3.1 HTML基本語法 4
2.3.2 HTML的特點(diǎn) 5
2.4 網(wǎng)頁去噪的定義和分類 6
2.5 信息抽取 6
2.5.1 信息抽取概述 7
2.5.2 Web信息抽取 8
2.6 網(wǎng)頁地址樹 8
2.7 網(wǎng)頁凈化方法效果評(píng)估 8
第三章 網(wǎng)頁凈化算法 10
3.1 基于啟發(fā)式規(guī)則的網(wǎng)頁凈化算法 10
3.1.1 基于內(nèi)容規(guī)則的網(wǎng)頁凈化算法 10
3.1.2 基于視覺的網(wǎng)頁凈化算法 10
3.2 基于機(jī)器學(xué)習(xí)的網(wǎng)頁凈化算法 11
3.2.1 一個(gè)框架 11
3.2.2 L-Extractor算法 12
第四章 網(wǎng)頁自動(dòng)分類 13
4.1 頁面分類 13
4.2 網(wǎng)頁相似度計(jì)算 13
4.2.1 最長(zhǎng)公共子序列 14
4.2.2 比較網(wǎng)頁結(jié)構(gòu)相似度 15
第五章 基于模板的網(wǎng)頁凈化算法 17
5.1 文檔樹 17
5.2 風(fēng)格樹 19
5.2.1 風(fēng)格節(jié)點(diǎn) 21
5.2.2 元素節(jié)點(diǎn) 21
5.2.3 風(fēng)格樹創(chuàng)建過程 22
5.3 確定噪音元素 22
5.3.1 節(jié)點(diǎn)重要性 24
5.3.2 綜合重要性 25
5.4 整體算法 27
5.5算法測(cè)試 27
5.5.1 測(cè)試環(huán)境 27
5.5.2 測(cè)試過程 28
5.5.3 測(cè)試結(jié)果 28
5.6 在搜索引擎中的應(yīng)用 29
結(jié) 論 31
致 謝 32
參考文獻(xiàn) 33
1.3萬字
自己原創(chuàng)的畢業(yè)論文,已經(jīng)通過校內(nèi)系統(tǒng)檢測(cè),重復(fù)率低,僅在本站獨(dú)家出售,大家放心下載使用
摘要 隨著Internet的快速發(fā)展,萬維網(wǎng)已經(jīng)發(fā)展成為一個(gè)龐大的信息空間,為人們提供了極其豐富的信息資源,也使網(wǎng)頁數(shù)據(jù)成為目前各種應(yīng)用和研究的重要數(shù)據(jù)源之一。網(wǎng)頁數(shù)據(jù)通常包含了各種內(nèi)容, 如廣告、導(dǎo)航條、相關(guān)鏈接、正文等, 然而對(duì)于不同的研究和應(yīng)用來說, 并非所有內(nèi)容都是必需的, 相反, 不相關(guān)的內(nèi)容反而會(huì)影響研究以及應(yīng)用的效果和效率, 因此網(wǎng)頁去噪是一個(gè)基礎(chǔ)問題, 是提高Web應(yīng)用的程序性能的關(guān)鍵技術(shù)之一,也是目前熱點(diǎn)研究的問題。
本文首先對(duì)網(wǎng)頁去噪的必要性進(jìn)行了簡(jiǎn)要說明, 并對(duì)網(wǎng)頁去噪進(jìn)行了定義和分類, 然后簡(jiǎn)單概介紹了幾種網(wǎng)頁去噪的方法及其特點(diǎn),接著深入分析了一種基于模板的網(wǎng)頁凈化方法。該方法提出了一種數(shù)據(jù)結(jié)構(gòu)——風(fēng)格樹(Style Tree,SST),來表示一個(gè)網(wǎng)站給定的網(wǎng)頁文檔集合的結(jié)構(gòu)和內(nèi)容。通過遍歷網(wǎng)站風(fēng)格樹(Site Style Tree ,SST)來計(jì)算出SST樹中每個(gè)元素節(jié)點(diǎn)它自身和它所有的子節(jié)點(diǎn)的重要性,然后和指定的閾值進(jìn)行比較,確定哪些是噪音,再把它們刪除。
實(shí)驗(yàn)表明,本文重點(diǎn)提出的算法能夠?qū)δ0逍偷木W(wǎng)頁進(jìn)行有效的凈化。
關(guān)鍵詞 網(wǎng)頁去噪 信息提取 模板 萬維網(wǎng)
Study and implementation of the algorithm Webpage purification
Abstract Along with the rapid development of Internet,WWW (world wide web) has become a huge information web-space providing valuable information resources. What is more, the rapid development of the Internet has made a variety of Web applications and Web data, which become the major source of data for a lot of research. A Web page usually consists of subject matter, in addition, there including advertising, navigation bar, related links, copyright information, welcome message and other topics unrelated with the contents as well. However, for different kinds of studies and applications, not all content is very necessary; on the contrary, the unrelated content will affect the effectiveness and efficiency of the research and applications. Therefore Web page cleaning is a key technique to improve the service qualities of Web application systems, and it is a highlighted topic of information retrieva l with booming search engines.
At the beginning, this paper gives a brief introduction to the necessity of Web page cleaning and its related concepts. Then a simple overview introduces several methods of Webpage denoising and its characteristics, after in-depth analysis of a purification method based on template Webpage. The method proposes a data structure -- style tree (Style Tree, SST), to represent the structure and content of a web site given Webpage document collection. By traversing the site style tree (Site Style Tree, SST) to calculate the importance of each element of the SST node in the tree itself and all its child nodes, then compare and a specified threshold, determining what is noise.
From the experimental results ,we can find this paper puts forward the algorithm of template type Webpage effectively purify.
Key words Web page cleaning information extraction template world wide web
目 錄
第一章 引 言 1
1.1 研究背景 1
1.2 研究現(xiàn)狀 1
1.3 研究?jī)?nèi)容 1
1.4 論文結(jié)構(gòu) 2
第二章 相關(guān)知識(shí) 3
2.1 網(wǎng)頁正文的定義及分類 3
2.2 網(wǎng)頁表示 4
2.3 HTML 4
2.3.1 HTML基本語法 4
2.3.2 HTML的特點(diǎn) 5
2.4 網(wǎng)頁去噪的定義和分類 6
2.5 信息抽取 6
2.5.1 信息抽取概述 7
2.5.2 Web信息抽取 8
2.6 網(wǎng)頁地址樹 8
2.7 網(wǎng)頁凈化方法效果評(píng)估 8
第三章 網(wǎng)頁凈化算法 10
3.1 基于啟發(fā)式規(guī)則的網(wǎng)頁凈化算法 10
3.1.1 基于內(nèi)容規(guī)則的網(wǎng)頁凈化算法 10
3.1.2 基于視覺的網(wǎng)頁凈化算法 10
3.2 基于機(jī)器學(xué)習(xí)的網(wǎng)頁凈化算法 11
3.2.1 一個(gè)框架 11
3.2.2 L-Extractor算法 12
第四章 網(wǎng)頁自動(dòng)分類 13
4.1 頁面分類 13
4.2 網(wǎng)頁相似度計(jì)算 13
4.2.1 最長(zhǎng)公共子序列 14
4.2.2 比較網(wǎng)頁結(jié)構(gòu)相似度 15
第五章 基于模板的網(wǎng)頁凈化算法 17
5.1 文檔樹 17
5.2 風(fēng)格樹 19
5.2.1 風(fēng)格節(jié)點(diǎn) 21
5.2.2 元素節(jié)點(diǎn) 21
5.2.3 風(fēng)格樹創(chuàng)建過程 22
5.3 確定噪音元素 22
5.3.1 節(jié)點(diǎn)重要性 24
5.3.2 綜合重要性 25
5.4 整體算法 27
5.5算法測(cè)試 27
5.5.1 測(cè)試環(huán)境 27
5.5.2 測(cè)試過程 28
5.5.3 測(cè)試結(jié)果 28
5.6 在搜索引擎中的應(yīng)用 29
結(jié) 論 31
致 謝 32
參考文獻(xiàn) 33