web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn).doc
約55頁(yè)DOC格式手機(jī)打開展開
web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn),54頁(yè)共計(jì)25135字摘要隨著網(wǎng)絡(luò)的迅猛發(fā)展。網(wǎng)絡(luò)成為信息的極其重要的來源地,越來越多的人從網(wǎng)絡(luò)上獲取自己所需要的信息,這就使得像google[40],百度[39]這樣的通用搜索引擎變成了人們尋找信息必不可少的工具。本文在深入研究了通用搜索引擎基本原理、架構(gòu)設(shè)計(jì)和核心技術(shù)的基礎(chǔ)上,結(jié)合小型搜索引擎的需求,參照了天網(wǎng),l...
內(nèi)容介紹
此文檔由會(huì)員 bfxqt 發(fā)布
54頁(yè)共計(jì)25135字
摘 要
隨著網(wǎng)絡(luò)的迅猛發(fā)展。網(wǎng)絡(luò)成為信息的極其重要的來源地,越來越多的人從網(wǎng)絡(luò)上獲取自己所需要的信息,這就使得像Google[40],百度[39]這樣的通用搜索引擎變成了人們尋找信息必不可少的工具。
本文在深入研究了通用搜索引擎基本原理、架構(gòu)設(shè)計(jì)和核心技術(shù)的基礎(chǔ)上,結(jié)合小型搜索引擎的需求,參照了天網(wǎng),lucene等搜索引擎的原理,構(gòu)建了一個(gè)運(yùn)行穩(wěn)定,性能良好而且可擴(kuò)充的小型搜索引擎系統(tǒng),本文不僅僅完成了對(duì)整個(gè)系統(tǒng)的設(shè)計(jì),并且完成了所有的編碼工作。
本文論述了搜索引擎的開發(fā)背景以及搜索引擎的歷史和發(fā)展趨勢(shì),分析了小型搜索引擎的需求,對(duì)系統(tǒng)開發(fā)中的一些問題,都給出了解決方案, 并對(duì)方案進(jìn)行詳細(xì)設(shè)計(jì),編碼實(shí)現(xiàn)。論文的主要工作及創(chuàng)新如下:
1.在深刻理解網(wǎng)絡(luò)爬蟲的工作原理的基礎(chǔ)上,使用數(shù)據(jù)庫(kù)的來實(shí)現(xiàn)爬蟲部分。
2.在深刻理解了中文切詞原理的基礎(chǔ)之上,對(duì)lucene的切詞算法上做出了改進(jìn)的基礎(chǔ)上設(shè)計(jì)了自己的算法,對(duì)改進(jìn)后的算法實(shí)現(xiàn),并進(jìn)行了準(zhǔn)確率和效率的測(cè)試,證明在效率上確實(shí)提高。
3.在理解了排序索引部分的原理之后,設(shè)計(jì)了實(shí)現(xiàn)索引排序部分結(jié)構(gòu),完成了詳細(xì)流程圖和編碼實(shí)現(xiàn),對(duì)完成的代碼進(jìn)行測(cè)試。
4.在完成搜索部分設(shè)計(jì)后,覺得效率上還不能夠達(dá)到系統(tǒng)的要求,于是為了提高系統(tǒng)的搜索效率,采用了緩存搜索頁(yè)面和對(duì)搜索頻率較高詞語結(jié)果緩存的兩級(jí)緩存原則來提高系統(tǒng)搜索效率。
目錄
第一章 緒論 1
1.1搜索引擎出現(xiàn)的背景及意義 1
1.2搜索引擎的發(fā)展歷史及趨勢(shì) 1
1.3本文主要工作 3
1.4論文結(jié)構(gòu) 4
第二章 系統(tǒng)結(jié)構(gòu) 5
2.1概述 5
2.2系統(tǒng)結(jié)構(gòu) 5
2.2.1爬蟲 6
2.2.2信息處理 6
2.2.3排序和索引 6
2.2.4搜索 6
2.3搜索引擎主要指標(biāo)及分析 6
2.4開發(fā)語言 7
2.5小結(jié) 8
第三章 爬蟲 9
3.1概述 9
3.2爬蟲結(jié)構(gòu)分析 9
3.2.1爬蟲初始化 10
3.2.2從網(wǎng)頁(yè)中提取url 11
3.2.3 URL存儲(chǔ) 12
3.2.4從數(shù)據(jù)庫(kù)中提取url 12
3.3小結(jié) 13
第四章 信息處理 14
4.1概述 14
4.2轉(zhuǎn)換 15
4.3切詞 18
4.3.1中文切詞 19
4.3.2中文切詞測(cè)試 25
4.3.3英文切詞 27
4.3.4數(shù)字切詞 28
4.3.5符號(hào)處理 29
4.3.6詞語存儲(chǔ) 30
4.4小結(jié) 31
第五章 排序索引 33
5.1概述 33
5.2統(tǒng)計(jì)相關(guān)url 33
5.3排序 34
5.4索引 36
5.5小結(jié) 37
第六章 搜索 38
6.1概述 38
6.2實(shí)現(xiàn)搜索 38
6.3性能優(yōu)化 41
6.4小結(jié) 42
第七章 總結(jié)與展望 43
7.1總結(jié) 43
7.3 展望 44
參考文獻(xiàn) 47
致 謝 49
關(guān)鍵詞:搜索引擎,網(wǎng)絡(luò)爬蟲,中文切詞,排序索引
參考文獻(xiàn)
[21] 嚴(yán)威,趙政.開發(fā)中文搜索引擎漢語處理的關(guān)鍵技術(shù).計(jì)算機(jī)工程[J],1999,vol.25:5~8
[22] 鐘濤,陳新明,萬鈞,張世永.中文文本W(wǎng)EB搜索引擎的設(shè)計(jì)與實(shí)現(xiàn).計(jì)算機(jī)工程與應(yīng)用[J],2001,vol.17:149~151
[23] 趙立剛.搜索引擎的研究與實(shí)現(xiàn):[碩士學(xué)位論文][D].吉林大學(xué).2005,46~48
[24] 向暉,郭一平,王亮. 基于Lucene的中文字典分詞模塊的設(shè)計(jì)與實(shí)現(xiàn).現(xiàn)代圖書情報(bào)技術(shù).2006(8):45~50
[25] 張文忠,趙明生,朱精南. 基于內(nèi)容的網(wǎng)頁(yè)特征提取.計(jì)算機(jī)工程與應(yīng)用2001.10 1~3
[26] 陳慶偉,劉軍.基于Lucene的網(wǎng)站全文搜索的設(shè)計(jì)與實(shí)現(xiàn).科技情報(bào)開發(fā)與經(jīng)濟(jì),2005,15(15):242-244
[27] 劉剛,于力超.搜索引擎中網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)與實(shí)現(xiàn) 電腦與信息技術(shù)2007 Vol.15 No.4
[28] 胡濤,路紅英. 基于Nutch的搜索引擎的研究. 計(jì)算機(jī)時(shí)代2007年 第1期
[29] 王繼成.基于元數(shù)據(jù)的Web信息檢索技術(shù)研究[D],南京大學(xué)計(jì)算機(jī)學(xué)
院,2000.
[30] Kunihiko Sadakane.Compressed Text Databases with Effcient Query Algorithms based on the
Compressed Suffix Array.ISAAC[J],2000,vol.5:410~421
[31] U.Manber,G.Myers.Suffix arrays:A New Method for On-Line String Searches.SIAM Journal on
Computing[J],1993,vol.22(5):935~948
[32] Michael J.Cafarella,Oren Etzioni.A Search Engine for Natural Language Applications.WWW[J],
2005,vol.2:3~7
[33] Lei Zhang,Bhavani Sridharan,Kinshuk.On-line Knowledge Management Search Engine.The 3rd
IEEE International Conference on Advanced Learning Technologies Conference Proceedings,IEEE
Computer Society[J],2004,vol.2:304~305
[34] Yihong Zhao,Prasad M.Deshpande,Jeffrey F.Naughton.An Array-Based Algorithm for
Simultaneous Multidimensional Aggregates.Proc.1997 ACM-SIGMOD Int.Conf.Management of
Data[J],1997,vol.24:159~170
摘 要
隨著網(wǎng)絡(luò)的迅猛發(fā)展。網(wǎng)絡(luò)成為信息的極其重要的來源地,越來越多的人從網(wǎng)絡(luò)上獲取自己所需要的信息,這就使得像Google[40],百度[39]這樣的通用搜索引擎變成了人們尋找信息必不可少的工具。
本文在深入研究了通用搜索引擎基本原理、架構(gòu)設(shè)計(jì)和核心技術(shù)的基礎(chǔ)上,結(jié)合小型搜索引擎的需求,參照了天網(wǎng),lucene等搜索引擎的原理,構(gòu)建了一個(gè)運(yùn)行穩(wěn)定,性能良好而且可擴(kuò)充的小型搜索引擎系統(tǒng),本文不僅僅完成了對(duì)整個(gè)系統(tǒng)的設(shè)計(jì),并且完成了所有的編碼工作。
本文論述了搜索引擎的開發(fā)背景以及搜索引擎的歷史和發(fā)展趨勢(shì),分析了小型搜索引擎的需求,對(duì)系統(tǒng)開發(fā)中的一些問題,都給出了解決方案, 并對(duì)方案進(jìn)行詳細(xì)設(shè)計(jì),編碼實(shí)現(xiàn)。論文的主要工作及創(chuàng)新如下:
1.在深刻理解網(wǎng)絡(luò)爬蟲的工作原理的基礎(chǔ)上,使用數(shù)據(jù)庫(kù)的來實(shí)現(xiàn)爬蟲部分。
2.在深刻理解了中文切詞原理的基礎(chǔ)之上,對(duì)lucene的切詞算法上做出了改進(jìn)的基礎(chǔ)上設(shè)計(jì)了自己的算法,對(duì)改進(jìn)后的算法實(shí)現(xiàn),并進(jìn)行了準(zhǔn)確率和效率的測(cè)試,證明在效率上確實(shí)提高。
3.在理解了排序索引部分的原理之后,設(shè)計(jì)了實(shí)現(xiàn)索引排序部分結(jié)構(gòu),完成了詳細(xì)流程圖和編碼實(shí)現(xiàn),對(duì)完成的代碼進(jìn)行測(cè)試。
4.在完成搜索部分設(shè)計(jì)后,覺得效率上還不能夠達(dá)到系統(tǒng)的要求,于是為了提高系統(tǒng)的搜索效率,采用了緩存搜索頁(yè)面和對(duì)搜索頻率較高詞語結(jié)果緩存的兩級(jí)緩存原則來提高系統(tǒng)搜索效率。
目錄
第一章 緒論 1
1.1搜索引擎出現(xiàn)的背景及意義 1
1.2搜索引擎的發(fā)展歷史及趨勢(shì) 1
1.3本文主要工作 3
1.4論文結(jié)構(gòu) 4
第二章 系統(tǒng)結(jié)構(gòu) 5
2.1概述 5
2.2系統(tǒng)結(jié)構(gòu) 5
2.2.1爬蟲 6
2.2.2信息處理 6
2.2.3排序和索引 6
2.2.4搜索 6
2.3搜索引擎主要指標(biāo)及分析 6
2.4開發(fā)語言 7
2.5小結(jié) 8
第三章 爬蟲 9
3.1概述 9
3.2爬蟲結(jié)構(gòu)分析 9
3.2.1爬蟲初始化 10
3.2.2從網(wǎng)頁(yè)中提取url 11
3.2.3 URL存儲(chǔ) 12
3.2.4從數(shù)據(jù)庫(kù)中提取url 12
3.3小結(jié) 13
第四章 信息處理 14
4.1概述 14
4.2轉(zhuǎn)換 15
4.3切詞 18
4.3.1中文切詞 19
4.3.2中文切詞測(cè)試 25
4.3.3英文切詞 27
4.3.4數(shù)字切詞 28
4.3.5符號(hào)處理 29
4.3.6詞語存儲(chǔ) 30
4.4小結(jié) 31
第五章 排序索引 33
5.1概述 33
5.2統(tǒng)計(jì)相關(guān)url 33
5.3排序 34
5.4索引 36
5.5小結(jié) 37
第六章 搜索 38
6.1概述 38
6.2實(shí)現(xiàn)搜索 38
6.3性能優(yōu)化 41
6.4小結(jié) 42
第七章 總結(jié)與展望 43
7.1總結(jié) 43
7.3 展望 44
參考文獻(xiàn) 47
致 謝 49
關(guān)鍵詞:搜索引擎,網(wǎng)絡(luò)爬蟲,中文切詞,排序索引
參考文獻(xiàn)
[21] 嚴(yán)威,趙政.開發(fā)中文搜索引擎漢語處理的關(guān)鍵技術(shù).計(jì)算機(jī)工程[J],1999,vol.25:5~8
[22] 鐘濤,陳新明,萬鈞,張世永.中文文本W(wǎng)EB搜索引擎的設(shè)計(jì)與實(shí)現(xiàn).計(jì)算機(jī)工程與應(yīng)用[J],2001,vol.17:149~151
[23] 趙立剛.搜索引擎的研究與實(shí)現(xiàn):[碩士學(xué)位論文][D].吉林大學(xué).2005,46~48
[24] 向暉,郭一平,王亮. 基于Lucene的中文字典分詞模塊的設(shè)計(jì)與實(shí)現(xiàn).現(xiàn)代圖書情報(bào)技術(shù).2006(8):45~50
[25] 張文忠,趙明生,朱精南. 基于內(nèi)容的網(wǎng)頁(yè)特征提取.計(jì)算機(jī)工程與應(yīng)用2001.10 1~3
[26] 陳慶偉,劉軍.基于Lucene的網(wǎng)站全文搜索的設(shè)計(jì)與實(shí)現(xiàn).科技情報(bào)開發(fā)與經(jīng)濟(jì),2005,15(15):242-244
[27] 劉剛,于力超.搜索引擎中網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)與實(shí)現(xiàn) 電腦與信息技術(shù)2007 Vol.15 No.4
[28] 胡濤,路紅英. 基于Nutch的搜索引擎的研究. 計(jì)算機(jī)時(shí)代2007年 第1期
[29] 王繼成.基于元數(shù)據(jù)的Web信息檢索技術(shù)研究[D],南京大學(xué)計(jì)算機(jī)學(xué)
院,2000.
[30] Kunihiko Sadakane.Compressed Text Databases with Effcient Query Algorithms based on the
Compressed Suffix Array.ISAAC[J],2000,vol.5:410~421
[31] U.Manber,G.Myers.Suffix arrays:A New Method for On-Line String Searches.SIAM Journal on
Computing[J],1993,vol.22(5):935~948
[32] Michael J.Cafarella,Oren Etzioni.A Search Engine for Natural Language Applications.WWW[J],
2005,vol.2:3~7
[33] Lei Zhang,Bhavani Sridharan,Kinshuk.On-line Knowledge Management Search Engine.The 3rd
IEEE International Conference on Advanced Learning Technologies Conference Proceedings,IEEE
Computer Society[J],2004,vol.2:304~305
[34] Yihong Zhao,Prasad M.Deshpande,Jeffrey F.Naughton.An Array-Based Algorithm for
Simultaneous Multidimensional Aggregates.Proc.1997 ACM-SIGMOD Int.Conf.Management of
Data[J],1997,vol.24:159~170
TA們正在看...
- 風(fēng)扇開關(guān)的塑料模具畢業(yè)設(shè)計(jì).rar
- 校園分站宣傳推廣建議.doc
- 四川省互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r報(bào)告.pdf
- 多條移動(dòng)平均線組合運(yùn)動(dòng)基本原理.pdf
- 馬克思主義基本原理概論復(fù)習(xí)整理.doc
- 預(yù)應(yīng)力混凝土連續(xù)梁橋設(shè)計(jì).rar
- 預(yù)應(yīng)力連續(xù)梁橋設(shè)計(jì).rar
- 連續(xù)梁橋施工臨時(shí)結(jié)構(gòu)設(shè)計(jì)三角掛籃.rar
- 鋼鐵廠高爐改造電氣部分.doc
- 變頻器一拖多電機(jī)的資料.doc