一個小型搜索引擎的設(shè)計與實現(xiàn).doc
約42頁DOC格式手機打開展開
一個小型搜索引擎的設(shè)計與實現(xiàn),頁數(shù):42字數(shù):22941 目錄摘要4關(guān)鍵詞4引言6第1章 搜索引擎的概述71.1 搜索引擎的定義及對世界的影響71.2 搜索引擎的分類71.2.1 通用型搜索引擎71.2.2 元搜索引擎81.2.3 主題性搜索引擎81.3 目前搜索引擎的研究現(xiàn)狀及未來發(fā)展方向91.4 本論文研究的背景、目...
![](http://img.queshao.com/images/pcgzh.gif)
![](http://preview.queshao.com/tobuy/62786.gif)
內(nèi)容介紹
此文檔由會員 cnlula 發(fā)布
一個小型搜索引擎的設(shè)計與實現(xiàn)
頁數(shù):42 字數(shù):22941
目錄
摘要 4
關(guān)鍵詞 4
引言 6
第1章 搜索引擎的概述 7
1.1 搜索引擎的定義及對世界的影響 7
1.2 搜索引擎的分類 7
1.2.1 通用型搜索引擎 7
1.2.2 元搜索引擎 8
1.2.3 主題性搜索引擎 8
1.3 目前搜索引擎的研究現(xiàn)狀及未來發(fā)展方向 9
1.4 本論文研究的背景、目的及意義 10
第2章 系統(tǒng)需求分析 11
2.1 搜索引擎需求分析 11
2.2 搜索引擎工作流程 12
2.3 系統(tǒng)邏輯模型圖 12
2.4 系統(tǒng)數(shù)據(jù)流 13
第3章 系統(tǒng)概要設(shè)計 15
3.1 網(wǎng)絡(luò)蜘蛛系統(tǒng) 15
3. 2 分析系統(tǒng) 17
3. 3 存儲系統(tǒng) 18
3.3.1 存儲系統(tǒng)數(shù)據(jù)庫 18
3.3.2 索引的建立 18
3.3.3 建立索引的方法 19
第4章 系統(tǒng)中相關(guān)算法設(shè)計 20
4.1 網(wǎng)絡(luò)蜘蛛算法 20
4.1.1 網(wǎng)絡(luò)蜘蛛的基本原理 20
4.1.2 網(wǎng)頁更新問題 21
4.1.3 重復(fù)網(wǎng)頁檢測 21
4.2 分析系統(tǒng)算法 22
4.2.1 分詞算法分析 22
4.2.2 基于PageRank算法的分析流程的設(shè)計 24
4.3 存儲系統(tǒng)算法 25
4.3.1 建立索引的數(shù)據(jù)結(jié)構(gòu) 25
4.3.2 原始數(shù)據(jù)庫 25
4.3.3 文本索引 26
4.3.4 采樣表 26
4.3.5 前向索引 26
4.3.6 后向索引 27
第5章 系統(tǒng)實現(xiàn)及部分代碼 28
5.1 系統(tǒng)的運行環(huán)境 28
5.2 網(wǎng)絡(luò)蜘蛛的實現(xiàn) 28
5.2.1 HTML解析 28
5.2.2 處理HTML頁面 28
5.2.3 多線程 29
5.3 分析系統(tǒng)的實現(xiàn) 30
5.3.1 中文分詞組件的實現(xiàn) 30
5.3.2 建立索引的類的實現(xiàn) 34
5.3.3 搜索索引的類的實現(xiàn) 36
5.4 存儲系統(tǒng)的實現(xiàn) 37
5.4.1 文件的讀寫實現(xiàn) 37
5.4.2 數(shù)據(jù)庫的設(shè)計實現(xiàn) 38
總結(jié) 40
參考文獻: 41
致謝: 42
摘要:隨著計算機和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)資源每年都以指數(shù)級規(guī)律增長。用戶要在浩瀚的信息海洋里查找信息,需要有效的搜索依據(jù)。于是,搜索引擎應(yīng)運而生。
本文首先介紹了搜索引擎的概念及其當前發(fā)展狀況,接著探討了搜索引擎的未來發(fā)展方向,說明了當前流行的搜索引擎在搜索局域網(wǎng)內(nèi)資源時的無奈并指出了本搜索引擎系統(tǒng)開發(fā)的目的和意義。結(jié)合當前局域網(wǎng)信息搜索的需求情況,筆者選擇使用C#開發(fā)語言以及IIS5.0構(gòu)建了一個簡單的搜索引擎系統(tǒng)。在開發(fā)過程中筆者對搜索引擎系統(tǒng)進行了總體規(guī)劃、詳細設(shè)計以及相關(guān)算法的設(shè)計。本系統(tǒng)的設(shè)計分成三個功能模塊來完成,分別實現(xiàn)了網(wǎng)絡(luò)蜘蛛、網(wǎng)頁分析建立索引、數(shù)據(jù)存儲的功能。在設(shè)計的過程中,本系統(tǒng)采用了寬度優(yōu)先搜索BFS來實現(xiàn)網(wǎng)絡(luò)蜘蛛的網(wǎng)頁抓??;利用字符串匹配和基于統(tǒng)計的分詞相結(jié)合的分詞算法實現(xiàn)中文分詞;通過PageRank技術(shù)實現(xiàn)查詢結(jié)果的優(yōu)化排序。通過對這三個模塊的功能完善,實現(xiàn)了此搜索引擎系統(tǒng)的基本功能。最后,本論文對此搜索引擎系統(tǒng)的開發(fā)設(shè)計過程進行了總結(jié)和展望。
關(guān)鍵詞:搜索引擎;網(wǎng)絡(luò)蜘蛛;分析系統(tǒng);存儲系統(tǒng);
The Design and Implement of a Mini Search Engine
He Nan
Faculty of Computer & Information Science,Southwest China University,ChongQing ,400715,China
Abstract:With the rapid development of computer and network technology,the amount of network resource is in creasing in exponential order.To efficiently search information in the vast sea of data,powerful retreeval system is required.Search engines are designed to meet such requirement.
This thesis first introduces the conception of the search engine and the situation of the development of the search engine.Then,it discusses the exposure of the search engines’ development;shows the disability of our popular search engines when they are searching the intranet resource..Moreover,it points out the motive and significance of opening up this search engine.Secondly,the author choose the C# program language and IIS5.0 to construct a simple search engine system to meet the requirement of the intranet search engine when people retreeval information.During the period of the developing,the author carries on the macrocosm layout ,the detailed and the related arithmetic design. This system involves three function mold pieces totally, carrying out network spider,the web page analysis to build up the index and database save.This search engine system uses BFS method to achive the webcrawler;using character string matching and the tokenize arithmetic according to statisticing to tokenize Chinese strings;using PageRank teconology to optimize the order of the results returned from the search engine after entering the query sting,totally accomplish the basic fuction of the search engine.In the end ,this thesis summarizes and prospects the development of the search engine system .
Keywords:Searching engine;WebCrawler;Analysis system;Storage system;
頁數(shù):42 字數(shù):22941
目錄
摘要 4
關(guān)鍵詞 4
引言 6
第1章 搜索引擎的概述 7
1.1 搜索引擎的定義及對世界的影響 7
1.2 搜索引擎的分類 7
1.2.1 通用型搜索引擎 7
1.2.2 元搜索引擎 8
1.2.3 主題性搜索引擎 8
1.3 目前搜索引擎的研究現(xiàn)狀及未來發(fā)展方向 9
1.4 本論文研究的背景、目的及意義 10
第2章 系統(tǒng)需求分析 11
2.1 搜索引擎需求分析 11
2.2 搜索引擎工作流程 12
2.3 系統(tǒng)邏輯模型圖 12
2.4 系統(tǒng)數(shù)據(jù)流 13
第3章 系統(tǒng)概要設(shè)計 15
3.1 網(wǎng)絡(luò)蜘蛛系統(tǒng) 15
3. 2 分析系統(tǒng) 17
3. 3 存儲系統(tǒng) 18
3.3.1 存儲系統(tǒng)數(shù)據(jù)庫 18
3.3.2 索引的建立 18
3.3.3 建立索引的方法 19
第4章 系統(tǒng)中相關(guān)算法設(shè)計 20
4.1 網(wǎng)絡(luò)蜘蛛算法 20
4.1.1 網(wǎng)絡(luò)蜘蛛的基本原理 20
4.1.2 網(wǎng)頁更新問題 21
4.1.3 重復(fù)網(wǎng)頁檢測 21
4.2 分析系統(tǒng)算法 22
4.2.1 分詞算法分析 22
4.2.2 基于PageRank算法的分析流程的設(shè)計 24
4.3 存儲系統(tǒng)算法 25
4.3.1 建立索引的數(shù)據(jù)結(jié)構(gòu) 25
4.3.2 原始數(shù)據(jù)庫 25
4.3.3 文本索引 26
4.3.4 采樣表 26
4.3.5 前向索引 26
4.3.6 后向索引 27
第5章 系統(tǒng)實現(xiàn)及部分代碼 28
5.1 系統(tǒng)的運行環(huán)境 28
5.2 網(wǎng)絡(luò)蜘蛛的實現(xiàn) 28
5.2.1 HTML解析 28
5.2.2 處理HTML頁面 28
5.2.3 多線程 29
5.3 分析系統(tǒng)的實現(xiàn) 30
5.3.1 中文分詞組件的實現(xiàn) 30
5.3.2 建立索引的類的實現(xiàn) 34
5.3.3 搜索索引的類的實現(xiàn) 36
5.4 存儲系統(tǒng)的實現(xiàn) 37
5.4.1 文件的讀寫實現(xiàn) 37
5.4.2 數(shù)據(jù)庫的設(shè)計實現(xiàn) 38
總結(jié) 40
參考文獻: 41
致謝: 42
摘要:隨著計算機和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)資源每年都以指數(shù)級規(guī)律增長。用戶要在浩瀚的信息海洋里查找信息,需要有效的搜索依據(jù)。于是,搜索引擎應(yīng)運而生。
本文首先介紹了搜索引擎的概念及其當前發(fā)展狀況,接著探討了搜索引擎的未來發(fā)展方向,說明了當前流行的搜索引擎在搜索局域網(wǎng)內(nèi)資源時的無奈并指出了本搜索引擎系統(tǒng)開發(fā)的目的和意義。結(jié)合當前局域網(wǎng)信息搜索的需求情況,筆者選擇使用C#開發(fā)語言以及IIS5.0構(gòu)建了一個簡單的搜索引擎系統(tǒng)。在開發(fā)過程中筆者對搜索引擎系統(tǒng)進行了總體規(guī)劃、詳細設(shè)計以及相關(guān)算法的設(shè)計。本系統(tǒng)的設(shè)計分成三個功能模塊來完成,分別實現(xiàn)了網(wǎng)絡(luò)蜘蛛、網(wǎng)頁分析建立索引、數(shù)據(jù)存儲的功能。在設(shè)計的過程中,本系統(tǒng)采用了寬度優(yōu)先搜索BFS來實現(xiàn)網(wǎng)絡(luò)蜘蛛的網(wǎng)頁抓??;利用字符串匹配和基于統(tǒng)計的分詞相結(jié)合的分詞算法實現(xiàn)中文分詞;通過PageRank技術(shù)實現(xiàn)查詢結(jié)果的優(yōu)化排序。通過對這三個模塊的功能完善,實現(xiàn)了此搜索引擎系統(tǒng)的基本功能。最后,本論文對此搜索引擎系統(tǒng)的開發(fā)設(shè)計過程進行了總結(jié)和展望。
關(guān)鍵詞:搜索引擎;網(wǎng)絡(luò)蜘蛛;分析系統(tǒng);存儲系統(tǒng);
The Design and Implement of a Mini Search Engine
He Nan
Faculty of Computer & Information Science,Southwest China University,ChongQing ,400715,China
Abstract:With the rapid development of computer and network technology,the amount of network resource is in creasing in exponential order.To efficiently search information in the vast sea of data,powerful retreeval system is required.Search engines are designed to meet such requirement.
This thesis first introduces the conception of the search engine and the situation of the development of the search engine.Then,it discusses the exposure of the search engines’ development;shows the disability of our popular search engines when they are searching the intranet resource..Moreover,it points out the motive and significance of opening up this search engine.Secondly,the author choose the C# program language and IIS5.0 to construct a simple search engine system to meet the requirement of the intranet search engine when people retreeval information.During the period of the developing,the author carries on the macrocosm layout ,the detailed and the related arithmetic design. This system involves three function mold pieces totally, carrying out network spider,the web page analysis to build up the index and database save.This search engine system uses BFS method to achive the webcrawler;using character string matching and the tokenize arithmetic according to statisticing to tokenize Chinese strings;using PageRank teconology to optimize the order of the results returned from the search engine after entering the query sting,totally accomplish the basic fuction of the search engine.In the end ,this thesis summarizes and prospects the development of the search engine system .
Keywords:Searching engine;WebCrawler;Analysis system;Storage system;