国产精品婷婷久久久久久,国产精品美女久久久浪潮av,草草国产,人妻精品久久无码专区精东影业

基于lucene的站內搜索引擎的設計與實現(含開題+任務書+ppt).rar

RAR格式版權申訴手機打開展開

基于lucene的站內搜索引擎的設計與實現(含開題+任務書+ppt),基于lucene的站內搜索引擎的設計與實現1.6萬字 41頁含開題報告+任務書+答辯ppt+論文正文+主要程序代碼摘 要lucene[1]是apache軟件基金會jakarta項目組的一個子項目,是一個開放源代碼的全文檢索引擎工具包,即它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引...
編號:88-34344大小:1.77M
分類: 論文>計算機論文

該文檔為壓縮文件,包含的文件列表如下:

內容介紹

原文檔由會員 usactu 發(fā)布

基于LUCENE的站內搜索引擎的設計與實現
1.6萬字 41頁
含開題報告+任務書+答辯PPT+論文正文+主要程序代碼


摘 要
LUCENE[1]是apache軟件基金會jakarta項目組的一個子項目,是一個開放源代碼的全文檢索引擎工具包,即它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎,LUCENE的目的是為軟件開發(fā)人員提供一個簡單易用的工具包,以方便的在目標系統(tǒng)中實現全文檢索的功能,或者是以此為基礎建立起完整的全文檢索引擎。
作為一個開放源代碼項目,LUCENE從問世之后,引發(fā)了開放源代碼社群的巨大反響,程序員們不僅使用它構建具體的全文檢索應用,而且將之集成到各種系統(tǒng)軟件中去,以及構建Web應用,甚至某些商業(yè)軟件也采用了LUCENE作為其內部全文檢索子系統(tǒng)的核心。apache軟件基金會的網站使用了LUCENE作為全文檢索的引擎,IBM的開源軟件eclipse的2.1版本中也采用了LUCENE作為幫助子系統(tǒng)的全文索引引擎,相應的IBM的商業(yè)軟件Web Sphere中也采用了LUCENE。LUCENE以其開放源代碼的特性、優(yōu)異的索引結構、良好的系統(tǒng)架構獲得了越來越多的應用。
這個系統(tǒng)的實際需求來源于本人在企業(yè)里實習時開發(fā)的2007世界特殊奧林匹克運動會官方網站,這個官方網站也使用了站內搜索引擎的功能,這個搜索引擎是我用LUCENE在.NET平臺上實現的,現在網站運行穩(wěn)定,站內搜索使整個網站的功能更加強大,為用戶提供了更為便利的搜索功能。
本文對搜索引擎的原理、組成、數據結構、工作流程等方面做了深入而細致地研究與分析。并且通過LUCENE來設計和實現一個全文檢索站內搜索引擎系統(tǒng),最后通過增量索引和優(yōu)化索引兩個方面來說明如何提高LUCENE的高效性。

關鍵詞: 全文檢索,搜索引擎,LUCENE ,jakarta


Design and Realization of Search Engine in Site Base On LUCENE

Abstract

LUCENE is a sub-project of jakarta project team in apache software foundation, and is a tool kit of full-text search engine of open source, that is not a complete full-text search engine, but is a framework of full-text search engine to provide integral inquire engine and index engine. LUCENE is designed to provide a simple, easy-to-use tool kit for software developers,and it’s convenient to realize the full-text retrieva l function in the target system , or as a basis to establish the integral full-text search engine.
As an open source project, LUCENE brings tremendous response in the open source community after its appearance. The programmers not only use it to build concrete full-text retrieva l applications, but also make it integrate into various of systems software, and build web applications, even some commercial software are using LUCENE as its core of full-text retrieva l subsystems. Apache Software Foundation website uses LUCENE as a full-text search engine, LUCENE is used to help full-text index engine of subsystem in the 2.1 version of IBM's software revenue eclipse. As the IBM’s corresponding commercial software Web Sphere also uses LUCENE. LUCENE gets more and more applications with open source characteristics, excellent index structure, good system architecture.
The actual requirements of this system origins from my development on “2007 Special Olympics World official website” when I practiced in the enterprise. The official website also uses the function of station search engine, I use the LUCENE to realize the search engine in .NET platform. Now for stable operation, station search make the function of the whole site become more powerful, and to provide users with a more convenient search function.
I have carefully studied and analysis search engines principle, composition, data structure, and work flow, and have designed and realized a full-text retrieva l stations search engine by means of LUCENE. Finally, both to I illustrate how to improve the efficiency of LUCENE through two aspects, the increment index and the optimization index.

Key Words: Full Text Retrieva l,Search Engine,jakarta

目 錄
1.緒論 1
1.1課題背景 1
1.2課題目前研究情況及存在問題 2
1.3論文組織結構 2
2.全文檢索與LUCENE 3
2.1全文檢索與全文檢索簡介 3
2.2全文檢索系統(tǒng)與數據庫比較 4
2.3 LUCENE簡介 8
2.4 LUCENE的應用、特點及優(yōu)勢 9
2.5互聯網搜索引擎的研究 10
2.6中文分詞的簡單介紹 11
3.LUCENE系統(tǒng)結構 12
3.1 LUCENE系統(tǒng)結構組織 12
3.2 數據流分析 12
3.3 LUCENE索引文件格式分析 14
3.3.1 LUCENE源碼實現分析的說明 14
3.3.2 LUCENE索引文件格式 14
3.4 LUCENE的倒排序原理 17
3.5 LUCENE搜索結果排序 20
4.系統(tǒng)設計與實現 21
4.1系統(tǒng)需求 21
4.2開發(fā)環(huán)境與工具 22
4.3系統(tǒng)組織結構 24
4.4流程實現 25
4.4.1根據網站中不同模塊建立生成動態(tài)索引 25
4.4.2搜索界面 26
4.4.3 搜索結果界面 27
5.關鍵技術 28
5.1 LUCENE增量索引 28
5.2優(yōu)化索引 28
5.3 LUCENE文件格式的通用性 29
5.4對于私密文件的處理 31
總 結 32
致 謝 33
參考文獻 34
附錄A 主要源程序 35


參考文獻
[8] 彭洪匯,林作銓.Internet上的搜索引擎和元搜索引擎[J].計算機科學
[9] 曹元大等.中文web文檔全文檢索系統(tǒng)的設計與實現[J].北京理工大學學報
[10] 顏維龍等.面向網絡的全文檢索中索引文件的組織[J].
計算機應用研究



附錄A 主要源程序
1、 生成靜態(tài)索引

IntranetIndexer writer = new IntranetIndexer(@"E:UsingWebGenSIndexForEnIndex");
writer.AddDirectory(new DirectoryInfo(@"E:BackUpOutWebEnglish"), "*.aspx");
writer.AddDirectory(new DirectoryInfo(@"E:BackUpOutWebEnglish"), "*.html");

......