一種面向?qū)W術(shù)的垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn).zip
一種面向?qū)W術(shù)的垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn),2.2萬字58頁 原創(chuàng)作品,已通過查重系統(tǒng) 摘 要隨著internet的迅速發(fā)展,web己經(jīng)發(fā)展成為包含多種信息資源、站點(diǎn)分布全球的海量信息服務(wù)網(wǎng)絡(luò)。搜索引擎是一種用于幫助web用戶查詢信息的搜索工具,它以一定的策略在internet中搜集、發(fā)現(xiàn)信息,對信息進(jìn)行理解、提取、組織和處...
該文檔為壓縮文件,包含的文件列表如下:
內(nèi)容介紹
原文檔由會員 馬甲線女神 發(fā)布
一種面向?qū)W術(shù)的垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
2.2萬字 58頁 原創(chuàng)作品,已通過查重系統(tǒng)
摘 要 隨著Internet的迅速發(fā)展,Web己經(jīng)發(fā)展成為包含多種信息資源、站點(diǎn)分布全球的海量信息服務(wù)網(wǎng)絡(luò)。搜索引擎是一種用于幫助Web用戶查詢信息的搜索工具,它以一定的策略在Internet中搜集、發(fā)現(xiàn)信息,對信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢服務(wù)和信息導(dǎo)航。用戶迫切需要一個(gè)數(shù)據(jù)分類細(xì)致、精確、全面、更新及時(shí)的面向特定主題的搜索技術(shù)和方法來獲得主題資源信息。在這種需求的推動下,垂直搜索引擎應(yīng)運(yùn)而生。
論文研究了搜索引擎的相關(guān)技術(shù),通過分析基于查詢串方式的搜索引擎和分類目錄式搜索引擎的整體結(jié)構(gòu),設(shè)計(jì)了垂直搜索引擎的系統(tǒng)結(jié)構(gòu),并對其中涉及的關(guān)鍵技術(shù):Web搜集器、信息抽取技術(shù)和檢索技術(shù)進(jìn)行了研究和實(shí)現(xiàn),期望對推進(jìn)本領(lǐng)域的技術(shù)發(fā)展作一點(diǎn)貢獻(xiàn)。在總體設(shè)計(jì)方面采用的是模塊化思想,垂直搜索引擎被分為搜集子系統(tǒng)、索引子系統(tǒng)和檢索子系統(tǒng),搜集子系統(tǒng)通過爬蟲收集關(guān)于學(xué)術(shù)方面的網(wǎng)頁信息,然后將內(nèi)容交給索引子系統(tǒng)進(jìn)行整理分類排序,建立索引表,當(dāng)用戶通過用戶接口輸入需要查詢的關(guān)鍵詞后,檢索子系統(tǒng)進(jìn)行檢索,然后將所查到的信息反饋給用戶接口,再由用戶接口將內(nèi)容呈現(xiàn)給用戶,各子系統(tǒng)相對獨(dú)立,實(shí)現(xiàn)較為方便。期望通過這次設(shè)計(jì)可以加深我對所學(xué)的理論知識的理解。
關(guān)鍵詞:搜索引擎 信息抓取 倒排文件 信息檢索
Abstract With the rapid development of Internet Web has become a mass of information service network that contains a variety of information resources sites all over the world. Search engines are designed to help Web users to query information which collect a certain strategy in the Internet find information understand the information extract organize and process then provide navigation and information retrieva l services for users. Users need a data classification detailed accurate comprehensive and timely updates of search techniques and methods for the specific topics to get the theme of resource information urgently. In this demand driven vertical search engines emerged. This article researches search engine related technologies through the analysis of the overall structure of search engines and classified directory-style search engine based on the query string method design the system structure vertical search engine and one of the key technologies involved: Web Collector information extraction technology Chinese word and retrieva l technology in-depth study. Expecting to make a contribution for advancing technological developments in this field. In the overall design uses a modular thinking Vertical search engines are divided into sub-collection indexing subsystem,retrieva l subsystem and the user interface sub-collection subsystem gather information about the academic aspect of the page by crawlers then the indexing subsystem begin to sort the information and create indexing table when a user input the keywords by the user interface the search subsystem retrieve and give the found information back to the user interface and then the user interface show to user about the content. Various subsystems are relatively independent achieve more convenient. I hope I can deepen my theoretical knowledge and understanding through this design.
Keywords search engine information capture inverted file information retrieva l.
目 錄
第一章:緒論 5
1.1研究背景 5
1.2搜索引擎的現(xiàn)狀分析及存在問題 6
第二章:相關(guān)技術(shù)原理及開發(fā)技術(shù) 9
2.1 問題的定義 9
2.2 相關(guān)技術(shù) 9
2.2.1.信息收集和儲存技術(shù) 9
2.2.2.信息預(yù)處理技術(shù) 9
2.2.3.信息索引技術(shù) 11
2.2.4. 檢索結(jié)果處理技術(shù) 13
2.3. 系統(tǒng)開發(fā)工具選擇及開發(fā)環(huán)境 13
第三章:需求分析 17
3.1系統(tǒng)設(shè)計(jì)目標(biāo) 17
3.2 功能需求 17
第四章:垂直搜索引擎的總體結(jié)構(gòu)設(shè)計(jì) 20
4.1.前臺搜索引擎 21
4.2.后臺數(shù)據(jù)庫 24
第五章:詳細(xì)設(shè)計(jì)步驟 27
5.1 搜集子系統(tǒng) 27
5.1.1 Web搜集器算法 28
5.1.2 主要類、接口和數(shù)據(jù)庫 29
5.1.3 web搜集器執(zhí)行流程 33
5.2 索引子系統(tǒng) 36
5.2.1原始網(wǎng)頁索引 39
5.2.2索引網(wǎng)頁庫 39
5.2.3分析網(wǎng)頁 40
5.2.4建立倒排文件 40
5.3 檢索子系統(tǒng) 42
5.3.1 向量空間模型的實(shí)現(xiàn) 48
5.3.2 頁面距離檢索 49
5.4 用戶接口 52
第六章:總結(jié) 56
致 謝 58
參考文獻(xiàn) 59
2.2萬字 58頁 原創(chuàng)作品,已通過查重系統(tǒng)
摘 要 隨著Internet的迅速發(fā)展,Web己經(jīng)發(fā)展成為包含多種信息資源、站點(diǎn)分布全球的海量信息服務(wù)網(wǎng)絡(luò)。搜索引擎是一種用于幫助Web用戶查詢信息的搜索工具,它以一定的策略在Internet中搜集、發(fā)現(xiàn)信息,對信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢服務(wù)和信息導(dǎo)航。用戶迫切需要一個(gè)數(shù)據(jù)分類細(xì)致、精確、全面、更新及時(shí)的面向特定主題的搜索技術(shù)和方法來獲得主題資源信息。在這種需求的推動下,垂直搜索引擎應(yīng)運(yùn)而生。
論文研究了搜索引擎的相關(guān)技術(shù),通過分析基于查詢串方式的搜索引擎和分類目錄式搜索引擎的整體結(jié)構(gòu),設(shè)計(jì)了垂直搜索引擎的系統(tǒng)結(jié)構(gòu),并對其中涉及的關(guān)鍵技術(shù):Web搜集器、信息抽取技術(shù)和檢索技術(shù)進(jìn)行了研究和實(shí)現(xiàn),期望對推進(jìn)本領(lǐng)域的技術(shù)發(fā)展作一點(diǎn)貢獻(xiàn)。在總體設(shè)計(jì)方面采用的是模塊化思想,垂直搜索引擎被分為搜集子系統(tǒng)、索引子系統(tǒng)和檢索子系統(tǒng),搜集子系統(tǒng)通過爬蟲收集關(guān)于學(xué)術(shù)方面的網(wǎng)頁信息,然后將內(nèi)容交給索引子系統(tǒng)進(jìn)行整理分類排序,建立索引表,當(dāng)用戶通過用戶接口輸入需要查詢的關(guān)鍵詞后,檢索子系統(tǒng)進(jìn)行檢索,然后將所查到的信息反饋給用戶接口,再由用戶接口將內(nèi)容呈現(xiàn)給用戶,各子系統(tǒng)相對獨(dú)立,實(shí)現(xiàn)較為方便。期望通過這次設(shè)計(jì)可以加深我對所學(xué)的理論知識的理解。
關(guān)鍵詞:搜索引擎 信息抓取 倒排文件 信息檢索
Abstract With the rapid development of Internet Web has become a mass of information service network that contains a variety of information resources sites all over the world. Search engines are designed to help Web users to query information which collect a certain strategy in the Internet find information understand the information extract organize and process then provide navigation and information retrieva l services for users. Users need a data classification detailed accurate comprehensive and timely updates of search techniques and methods for the specific topics to get the theme of resource information urgently. In this demand driven vertical search engines emerged. This article researches search engine related technologies through the analysis of the overall structure of search engines and classified directory-st
Keywords search engine information capture inverted file information retrieva l.
目 錄
第一章:緒論 5
1.1研究背景 5
1.2搜索引擎的現(xiàn)狀分析及存在問題 6
第二章:相關(guān)技術(shù)原理及開發(fā)技術(shù) 9
2.1 問題的定義 9
2.2 相關(guān)技術(shù) 9
2.2.1.信息收集和儲存技術(shù) 9
2.2.2.信息預(yù)處理技術(shù) 9
2.2.3.信息索引技術(shù) 11
2.2.4. 檢索結(jié)果處理技術(shù) 13
2.3. 系統(tǒng)開發(fā)工具選擇及開發(fā)環(huán)境 13
第三章:需求分析 17
3.1系統(tǒng)設(shè)計(jì)目標(biāo) 17
3.2 功能需求 17
第四章:垂直搜索引擎的總體結(jié)構(gòu)設(shè)計(jì) 20
4.1.前臺搜索引擎 21
4.2.后臺數(shù)據(jù)庫 24
第五章:詳細(xì)設(shè)計(jì)步驟 27
5.1 搜集子系統(tǒng) 27
5.1.1 Web搜集器算法 28
5.1.2 主要類、接口和數(shù)據(jù)庫 29
5.1.3 web搜集器執(zhí)行流程 33
5.2 索引子系統(tǒng) 36
5.2.1原始網(wǎng)頁索引 39
5.2.2索引網(wǎng)頁庫 39
5.2.3分析網(wǎng)頁 40
5.2.4建立倒排文件 40
5.3 檢索子系統(tǒng) 42
5.3.1 向量空間模型的實(shí)現(xiàn) 48
5.3.2 頁面距離檢索 49
5.4 用戶接口 52
第六章:總結(jié) 56
致 謝 58
參考文獻(xiàn) 59
TA們正在看...
- 01.1四時(shí)田園雜興課堂教學(xué)教案教學(xué)設(shè)計(jì)(部編版).doc
- 01.2稚子弄冰課堂教學(xué)教案教學(xué)設(shè)計(jì)(部編版).doc
- 01.3村晚課堂教學(xué)教案教學(xué)設(shè)計(jì)(部編版).doc
- 02冬陽·童年·駱駝隊(duì)公開課優(yōu)秀教案教學(xué)設(shè)計(jì)(五年...doc
- 02冬陽·童年·駱駝隊(duì)最新教研教案教學(xué)設(shè)計(jì)(部編版...doc
- 02冬陽·童年·駱駝隊(duì)課堂教學(xué)教案教學(xué)設(shè)計(jì)(部編版).doc
- 03祖父的園子公開課優(yōu)秀教案教學(xué)設(shè)計(jì)(五年級下冊).doc
- 03祖父的園子最新教研教案教學(xué)設(shè)計(jì)(部編版五年級下...doc
- 03祖父的園子課堂教學(xué)教案教學(xué)設(shè)計(jì)(部編版).doc
- 04草船借箭公開課優(yōu)秀教案教學(xué)設(shè)計(jì)(五年級下冊).doc