基于lucene的全文搜索引擎設(shè)計(jì)--畢業(yè)設(shè)計(jì).doc
基于lucene的全文搜索引擎設(shè)計(jì)--畢業(yè)設(shè)計(jì),基于lucene的全文搜索引擎設(shè)計(jì)--畢業(yè)設(shè)計(jì)摘 要web搜索引擎技術(shù)是當(dāng)今網(wǎng)絡(luò)信息處理領(lǐng)域的一個(gè)熱點(diǎn)和難點(diǎn)。web可以看作是一個(gè)龐大的分布式網(wǎng)絡(luò)數(shù)據(jù)庫,對(duì)于這樣一個(gè)信息量飛速增長(zhǎng)的數(shù)據(jù)庫,如果人工地去檢索和分類將是一項(xiàng)非常巨大的工程,而搜索引擎技術(shù)則能夠幫助我們更容易地從web中獲取所需信息。本文闡述了一個(gè)全文檢索系...
![](http://img.queshao.com/images/pcgzh.gif)
![](http://preview.queshao.com/tobuy/155917.gif)
內(nèi)容介紹
此文檔由會(huì)員 bfxqt 發(fā)布基于Lucene的全文搜索引擎設(shè)計(jì)--畢業(yè)設(shè)計(jì)
摘 要
Web搜索引擎技術(shù)是當(dāng)今網(wǎng)絡(luò)信息處理領(lǐng)域的一個(gè)熱點(diǎn)和難點(diǎn)。Web可以看作是一個(gè)龐大的分布式網(wǎng)絡(luò)數(shù)據(jù)庫,對(duì)于這樣一個(gè)信息量飛速增長(zhǎng)的數(shù)據(jù)庫,如果人工地去檢索和分類將是一項(xiàng)非常巨大的工程,而搜索引擎技術(shù)則能夠幫助我們更容易地從Web中獲取所需信息。
本文闡述了一個(gè)全文檢索系統(tǒng)的原理及其設(shè)計(jì)和實(shí)現(xiàn)過程。該系統(tǒng)基于B/S模式的JavaWeb平臺(tái)架構(gòu)實(shí)現(xiàn),使用MySQL作為系統(tǒng)的數(shù)據(jù)庫,并采用Heritrix,Lucene等優(yōu)秀的開源框架實(shí)現(xiàn)對(duì)某網(wǎng)頁手機(jī)產(chǎn)品信息的檢索。系統(tǒng)還利用Struts,Hibernate,Spring等流行的Java開發(fā)框架以及面向接口編程很好地實(shí)現(xiàn)了對(duì)系統(tǒng)的解耦合。在前端使用具備較強(qiáng)UI表現(xiàn)功能的Extjs作為輔助實(shí)現(xiàn)了Ajax應(yīng)用。
本文首先介紹了課題研究背景,然后對(duì)系統(tǒng)涉及到的相關(guān)技術(shù)做了較為詳細(xì)的說明,最后根據(jù)軟件工程的開發(fā)方法逐步實(shí)現(xiàn)系統(tǒng)的功能。
關(guān)鍵詞:Web 搜索 手機(jī) Lucene 框架 Ajax
目 錄
1 前言 1
1.1 研究目的和意義 1
1.2 課題研究的背景 2
1.3 國(guó)內(nèi)外研究概況 2
2 相關(guān)理論知識(shí) 3
2.1 Web爬蟲Heritrix介紹 3
2.2 Ajax(Asynchronous JavaScript and XML)技術(shù) 3
2.3 Struts介紹 4
2.4 Hibernate介紹 6
2.5 Spring介紹 7
2.6 分詞技術(shù) 8
3 概要設(shè)計(jì) 9
3.1 系統(tǒng)模塊圖 9
3.2 網(wǎng)頁爬蟲模塊 9
3.2.1 Heritrix的體系結(jié)構(gòu)圖 10
3.2.2 架構(gòu)分析 10
3.3 網(wǎng)頁分析與提取模塊 11
3.4 索引建立模塊 12
3.5 Web搜索模塊 14
4 詳細(xì)設(shè)計(jì) 15
4.1 Web爬蟲的配置和擴(kuò)展 15
4.2 網(wǎng)頁的分析與數(shù)據(jù)提取 16
4.3 索引的建立與數(shù)據(jù)庫設(shè)計(jì) 20
4.3.1 實(shí)體對(duì)象設(shè)計(jì) 21
4.3.2 將數(shù)據(jù)文件轉(zhuǎn)化為對(duì)象 22
4.3.3 將對(duì)象持久化到數(shù)據(jù)庫 23
4.3.4 建立索引 24
4.4 Web系統(tǒng)模塊和搜索模塊設(shè)計(jì) 26
4.4.1 搜索模塊設(shè)計(jì) 27
4.4.2 Web系統(tǒng)模塊設(shè)計(jì) 28
5 用戶手冊(cè)以及測(cè)試結(jié)果 29
5.1 系統(tǒng)運(yùn)行準(zhǔn)備 29
5.2 使用Heritrix抓取網(wǎng)頁 29
5.3 網(wǎng)頁數(shù)據(jù)提取 34
5.4 建立索引和初始化數(shù)據(jù)庫 35
5.5 搜索 36
6 總結(jié) 39
6.1 系統(tǒng)存在的問題 39
6.2 開發(fā)過程出現(xiàn)的問題 40
6.3 心得體會(huì) 40
致 謝 42
參 考 文 獻(xiàn) 43
Abstract 44