国产精品婷婷久久久久久,国产精品美女久久久浪潮av,草草国产,人妻精品久久无码专区精东影业

基于lucene與heritrix的搜索引擎構建.doc

約29頁DOC格式手機打開展開

基于lucene與heritrix的搜索引擎構建,基于lucene與heritrix的搜索引擎構建摘 要在互聯(lián)網蓬勃發(fā)展的今天,互聯(lián)網上的信息更是浩如煙海。人們在享受互聯(lián)網帶來的便利的同時,卻面臨著一個如何在如此海量的內容中準確、快捷地找到自己所需要的信息的問題,由此互聯(lián)網搜索引擎應運而生。本文在對搜索引擎的原理、組成、數(shù)據結構和工作流程等方面深入研究的基礎上,對搜索...
編號:45-163831大小:759.00K
分類: 論文>計算機論文

內容介紹

此文檔由會員 heshihuakai 發(fā)布

基于Lucene與Heritrix的搜索引擎構建

摘    要
在互聯(lián)網蓬勃發(fā)展的今天,互聯(lián)網上的信息更是浩如煙海。人們在享受互聯(lián)網帶來的便利的同時,卻面臨著一個如何在如此海量的內容中準確、快捷地找到自己所需要的信息的問題,由此互聯(lián)網搜索引擎應運而生。
本文在對搜索引擎的原理、組成、數(shù)據結構和工作流程等方面深入研究的基礎上,對搜索引擎的三個核心部分即網絡蜘蛛、網頁索引和搜索的分析及實現(xiàn)過程進行闡述。網絡蜘蛛部分采用了基于遞歸和歸檔機制的Heritrix網絡爬蟲;網頁索引部分利用開源的Lucene引擎架構設計并實現(xiàn)了一個可復用的、可擴展的索引建立與管理子系統(tǒng);搜索部分在Ajax技術支持上,設計并實現(xiàn)了一個靈活、簡潔的用戶接口。本系統(tǒng)具有抓取網頁、建立和管理索引、建立日志以及搜索信息等功能,具備一定的應用前景。

關鍵詞:搜索引擎;中文分詞;索引


 
The Construction of Search Engine Based on Lucene and Heritrix

Abstract
The contents on the Web are increasing exponentially as the rapid development of the Internet. A problem how to obtain the useful information from vast contents quickly and accurately is facing us while people are enjoying the convenience of the Internet. The solver of this problem is Web Search Engine.
The analysis and implementation process of three basic components of search engine(Crawler, Indexer and Searcher) is described in this paper on the basis of further study on the principles, composition, data structure and work flow of search engine. The crawler component is implemented with Heritrix crawler based on the mechanism of recursion and archiving; A reusable, extensible index establishment and management subsystem are designed and implemented by open-source package named “Lucene” in the indexer component; The Searcher component based on the Ajax technology is designed and realized as a flexible, concise user interface. The system has some functions, such as crawling web page, establishment and management index, establishment log and search information, it has a certain application prospect.

Key Words:Search Engine;Chinese Word Segmentation;Index


 
目    錄
摘    要 I
Abstract II
1 緒論 1
1.1 項目背景 1
1.2 國內外發(fā)展現(xiàn)狀 1
2 系統(tǒng)的開發(fā)平臺及相關技術 3
2.1 系統(tǒng)開發(fā)平臺 3
2.2 系統(tǒng)開發(fā)技術 3
2.2.1 Heritrix網絡爬蟲簡介 3
2.2.2 Lucene技術簡介 4
2.2.3 Ajax技術簡介 4
3 系統(tǒng)分析與設計 6
3.1 系統(tǒng)需求分析 6
3.1.1 系統(tǒng)架構分析 6
3.1.2 系統(tǒng)用例模型 6
3.1.3 系統(tǒng)領域模型 10
3.2 系統(tǒng)概要設計 11
3.3 系統(tǒng)詳細設計 12
3.3.1 索引建立子系統(tǒng) 13
3.3.2 用戶接口子系統(tǒng) 17
4 系統(tǒng)的實現(xiàn) 18
4.1 系統(tǒng)包框架的構建 18
4.1.1 索引建立子系統(tǒng) 18
4.1.2 用戶接口子系統(tǒng) 19
4.2 系統(tǒng)主要功能實現(xiàn) 19
4.2.1 索引建立子系統(tǒng) 19
4.2.2 用戶接口子系統(tǒng) 22
結    論 24
參 考 文 獻 25
致    謝 26