基于nutch的搜索引擎實(shí)現(xiàn)及中文擴(kuò)展(含開題).rar
基于nutch的搜索引擎實(shí)現(xiàn)及中文擴(kuò)展(含開題),基于nutch的搜索引擎實(shí)現(xiàn)及中文擴(kuò)展1.9萬字 41頁包括開題報(bào)告摘要搜索引擎是為滿足人們網(wǎng)絡(luò)信息搜索應(yīng)運(yùn)而生的網(wǎng)絡(luò)工具,它是互聯(lián)網(wǎng)信息查詢的導(dǎo)航針,是溝通用戶與網(wǎng)絡(luò)信息的橋梁。然而,隨著網(wǎng)上內(nèi)容的爆炸式增長和內(nèi)容形式花樣的不斷翻新,搜索引擎越來越不能滿足挑剔的網(wǎng)民們的各種搜索需求,盡管web搜索是漫游interne...
該文檔為壓縮文件,包含的文件列表如下:
內(nèi)容介紹
原文檔由會(huì)員 usactu 發(fā)布
基于Nutch的搜索引擎實(shí)現(xiàn)及中文擴(kuò)展
1.9萬字 41頁
包括開題報(bào)告
摘 要
搜索引擎是為滿足人們網(wǎng)絡(luò)信息搜索應(yīng)運(yùn)而生的網(wǎng)絡(luò)工具,它是互聯(lián)網(wǎng)信息查詢的導(dǎo)航針,是溝通用戶與網(wǎng)絡(luò)信息的橋梁。然而,隨著網(wǎng)上內(nèi)容的爆炸式增長和內(nèi)容形式花樣的不斷翻新,搜索引擎越來越不能滿足挑剔的網(wǎng)民們的各種搜索需求,盡管Web搜索是漫游Internet的基本要求, 并且現(xiàn)有web搜索引擎的數(shù)目卻在下降。 這很有可能進(jìn)一步演變成為一個(gè)公司壟斷了幾乎所有的web搜索為其謀取商業(yè)利益。于是強(qiáng)有力的搜索工具成為這些網(wǎng)民們的渴盼。作為Apache開源子項(xiàng)目,Nutch 提供完整的搜索引擎框架,在對(duì)全文進(jìn)行索引的時(shí)候,索引部分采用了開源工具包Lucene進(jìn)行全文索引。通過對(duì)Nutch的二次開發(fā),我們可以利用它強(qiáng)大的網(wǎng)絡(luò)資源采集功能對(duì)網(wǎng)絡(luò)資源進(jìn)行采集,并加工進(jìn)入本地庫,最后讓用戶直接面對(duì)有效的信息。
本文重點(diǎn)討論搜索引擎原理,基于Nutch的搜索引擎的實(shí)現(xiàn)架構(gòu),同時(shí)網(wǎng)頁抓取過程做了深入的研究和分析;最后,對(duì)在早期Nutch的版本的基礎(chǔ)上如何更好的支持中文,實(shí)現(xiàn)中文分詞搜索給出問題的解決方案,并對(duì)基于Nutch的搜索引擎的應(yīng)用進(jìn)行了討論。
關(guān)鍵詞:搜索引擎,抓取器,Nutch,中文分詞
Nutch –Based Search Engine Implementation and Chinese extension
Abstract
Search engine is the internet tool meeting demands of people while surfing on the internet and searching the information. It is a Internet Information navigation and bridge between internet user and information. However, with the sharply increase of the net content and the surprisingly change of the Synchronized forms of content, search engine can not satisfy increasingly critical user’s all kinds of search demands, although Web search is the foundation of the internet Roaming ,the existing number of search engine is down.This phenomenon can easily became one company almost monopolized all web search for its commercial gain. Therefore ,a strong and useful and effective search tool rise to the hope focus of internet user.Nutch is such search engine, when Nutch aims to text indexing, it uses the revenue Lucene toolkit for full-text indexing. Through the second Nutch development we can make use of its powerful internet resource Collection Function to collect the resource we need, then put the processed information into local database, finally, user can directly face effective information.
In this paper, we emphasize on the implementation architecture of the Nutch, Search engine principle,webpage crawling process. Excepting the in-depth research and analysis about above, we also give the solution of how to support Chinese and Chinese segmentation on the basis of earlier versions. Finally, a discussion about the application based on Nutch is given.
Key words:Search engine, crawler, Nutch, Chinese segmentation
目錄
1緒論 1
1.1 課題背景 1
1.2 搜索引擎的現(xiàn)狀 2
1.2.1搜索引擎的發(fā)展歷史 2
1.2.2搜索引擎的分類 3
1.2.3當(dāng)前主流搜索引擎簡介 4
1.3 論文組織結(jié)構(gòu) 5
2搜索引擎基本組成及數(shù)據(jù)結(jié)構(gòu) 6
2.1搜索引擎基本組成及工作流程 6
2.1.1基本組成 6
2.1.2工作流程 6
2.2 存儲(chǔ)結(jié)構(gòu) 8
2.2.1頁面存儲(chǔ)庫 8
2.2.2詞典庫 8
2.2.3 Hits列表 9
2.3 索引結(jié)構(gòu) 10
2.3.1文檔索引庫 10
2.3.2前向索引表 10
2.3.3后向索引表 11
3基于Nutch的搜索引擎實(shí)現(xiàn)的關(guān)鍵技術(shù) 11
3.1網(wǎng)頁抓取技術(shù)研究與設(shè)計(jì) 11
3.1.1抓取技術(shù)的協(xié)議分析 11
3.1.2通信協(xié)議 12
3.1.3 HTML解析 13
3.2 網(wǎng)頁抓取方法 13
4 基于Nutch實(shí)現(xiàn)架構(gòu) 16
4.1 基于Nutch的搜索引擎開發(fā)環(huán)境和體系結(jié)構(gòu) 16
4.1.1 基于Nutch的搜索引擎的開發(fā)環(huán)境 16
4.1.2基于 Nutch的搜索引擎的體系結(jié)構(gòu) 16
4.2 基于Nutch的搜索引擎的抓取過程運(yùn)行 20
4.3 搜索結(jié)果展示 22
5 Nutch中文擴(kuò)展設(shè)計(jì)與實(shí)現(xiàn) 23
5.1中文分詞和搜索引擎 23
5.2 中文分詞算法 23
5.2.1 基于字符串匹配的分詞算法 24
5.2.2基于理解的分詞方法 25
5.2.3基于統(tǒng)計(jì)的分詞方法 25
5.3 中文分詞難點(diǎn) 26
5.4 Nutch分析 27
5.5 Nutch中文搜索 28
5.5.1 Nutch中文分詞 28
5.5.2 JavaCC分析 29
5.5.3利用JavaCC構(gòu)造中文分析模塊 31
5.6小結(jié) 33
結(jié)論 33
總結(jié) 33
展望 33
致謝 34
參考文獻(xiàn) 34
參考文獻(xiàn)
[3]李偉超,王蘭敬,論搜索引擎的工作機(jī)制合發(fā)展趨勢[J].現(xiàn)代情報(bào)
[4]陳春陽.如何利用網(wǎng)絡(luò)搜索引擎檢索網(wǎng)絡(luò)信息資源[J].蘭州工業(yè)高等專科學(xué)校學(xué) 報(bào)
[5].中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告
[6]周濤.中文搜索引擎[J].圖書館理論與實(shí)踐
[7]趙紅.搜索引擎的智能化與網(wǎng)絡(luò)信息資源的檢索研究[J].現(xiàn)代圖書情報(bào)技術(shù)
1.9萬字 41頁
包括開題報(bào)告
摘 要
搜索引擎是為滿足人們網(wǎng)絡(luò)信息搜索應(yīng)運(yùn)而生的網(wǎng)絡(luò)工具,它是互聯(lián)網(wǎng)信息查詢的導(dǎo)航針,是溝通用戶與網(wǎng)絡(luò)信息的橋梁。然而,隨著網(wǎng)上內(nèi)容的爆炸式增長和內(nèi)容形式花樣的不斷翻新,搜索引擎越來越不能滿足挑剔的網(wǎng)民們的各種搜索需求,盡管Web搜索是漫游Internet的基本要求, 并且現(xiàn)有web搜索引擎的數(shù)目卻在下降。 這很有可能進(jìn)一步演變成為一個(gè)公司壟斷了幾乎所有的web搜索為其謀取商業(yè)利益。于是強(qiáng)有力的搜索工具成為這些網(wǎng)民們的渴盼。作為Apache開源子項(xiàng)目,Nutch 提供完整的搜索引擎框架,在對(duì)全文進(jìn)行索引的時(shí)候,索引部分采用了開源工具包Lucene進(jìn)行全文索引。通過對(duì)Nutch的二次開發(fā),我們可以利用它強(qiáng)大的網(wǎng)絡(luò)資源采集功能對(duì)網(wǎng)絡(luò)資源進(jìn)行采集,并加工進(jìn)入本地庫,最后讓用戶直接面對(duì)有效的信息。
本文重點(diǎn)討論搜索引擎原理,基于Nutch的搜索引擎的實(shí)現(xiàn)架構(gòu),同時(shí)網(wǎng)頁抓取過程做了深入的研究和分析;最后,對(duì)在早期Nutch的版本的基礎(chǔ)上如何更好的支持中文,實(shí)現(xiàn)中文分詞搜索給出問題的解決方案,并對(duì)基于Nutch的搜索引擎的應(yīng)用進(jìn)行了討論。
關(guān)鍵詞:搜索引擎,抓取器,Nutch,中文分詞
Nutch –Based Search Engine Implementation and Chinese extension
Abstract
Search engine is the internet tool meeting demands of people while surfing on the internet and searching the information. It is a Internet Information navigation and bridge between internet user and information. However, with the sharply increase of the net content and the surprisingly change of the Synchronized forms of content, search engine can not satisfy increasingly critical user’s all kinds of search demands, although Web search is the foundation of the internet Roaming ,the existing number of search engine is down.This phenomenon can easily became one company almost monopolized all web search for its commercial gain. Therefore ,a strong and useful and effective search tool rise to the hope focus of internet user.Nutch is such search engine, when Nutch aims to text indexing, it uses the revenue Lucene toolkit for full-text indexing. Through the second Nutch development we can make use of its powerful internet resource Collection Function to collect the resource we need, then put the processed information into local database, finally, user can directly face effective information.
In this paper, we emphasize on the implementation architecture of the Nutch, Search engine principle,webpage crawling process. Excepting the in-depth research and analysis about above, we also give the solution of how to support Chinese and Chinese segmentation on the basis of earlier versions. Finally, a discussion about the application based on Nutch is given.
Key words:Search engine, crawler, Nutch, Chinese segmentation
目錄
1緒論 1
1.1 課題背景 1
1.2 搜索引擎的現(xiàn)狀 2
1.2.1搜索引擎的發(fā)展歷史 2
1.2.2搜索引擎的分類 3
1.2.3當(dāng)前主流搜索引擎簡介 4
1.3 論文組織結(jié)構(gòu) 5
2搜索引擎基本組成及數(shù)據(jù)結(jié)構(gòu) 6
2.1搜索引擎基本組成及工作流程 6
2.1.1基本組成 6
2.1.2工作流程 6
2.2 存儲(chǔ)結(jié)構(gòu) 8
2.2.1頁面存儲(chǔ)庫 8
2.2.2詞典庫 8
2.2.3 Hits列表 9
2.3 索引結(jié)構(gòu) 10
2.3.1文檔索引庫 10
2.3.2前向索引表 10
2.3.3后向索引表 11
3基于Nutch的搜索引擎實(shí)現(xiàn)的關(guān)鍵技術(shù) 11
3.1網(wǎng)頁抓取技術(shù)研究與設(shè)計(jì) 11
3.1.1抓取技術(shù)的協(xié)議分析 11
3.1.2通信協(xié)議 12
3.1.3 HTML解析 13
3.2 網(wǎng)頁抓取方法 13
4 基于Nutch實(shí)現(xiàn)架構(gòu) 16
4.1 基于Nutch的搜索引擎開發(fā)環(huán)境和體系結(jié)構(gòu) 16
4.1.1 基于Nutch的搜索引擎的開發(fā)環(huán)境 16
4.1.2基于 Nutch的搜索引擎的體系結(jié)構(gòu) 16
4.2 基于Nutch的搜索引擎的抓取過程運(yùn)行 20
4.3 搜索結(jié)果展示 22
5 Nutch中文擴(kuò)展設(shè)計(jì)與實(shí)現(xiàn) 23
5.1中文分詞和搜索引擎 23
5.2 中文分詞算法 23
5.2.1 基于字符串匹配的分詞算法 24
5.2.2基于理解的分詞方法 25
5.2.3基于統(tǒng)計(jì)的分詞方法 25
5.3 中文分詞難點(diǎn) 26
5.4 Nutch分析 27
5.5 Nutch中文搜索 28
5.5.1 Nutch中文分詞 28
5.5.2 JavaCC分析 29
5.5.3利用JavaCC構(gòu)造中文分析模塊 31
5.6小結(jié) 33
結(jié)論 33
總結(jié) 33
展望 33
致謝 34
參考文獻(xiàn) 34
參考文獻(xiàn)
[3]李偉超,王蘭敬,論搜索引擎的工作機(jī)制合發(fā)展趨勢[J].現(xiàn)代情報(bào)
[4]陳春陽.如何利用網(wǎng)絡(luò)搜索引擎檢索網(wǎng)絡(luò)信息資源[J].蘭州工業(yè)高等專科學(xué)校學(xué) 報(bào)
[5].中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告
[6]周濤.中文搜索引擎[J].圖書館理論與實(shí)踐
[7]趙紅.搜索引擎的智能化與網(wǎng)絡(luò)信息資源的檢索研究[J].現(xiàn)代圖書情報(bào)技術(shù)