国产精品婷婷久久久久久,国产精品美女久久久浪潮av,草草国产,人妻精品久久无码专区精东影业

<del id="q8bvj"></del>

頻道

熱門頻道

用戶中心

豆知微信公眾號(hào)

微信二維碼

社會(huì)實(shí)踐報(bào)告范文大全

上傳

基于文本的web圖片搜索引擎的研究.doc

約65頁DOC格式手機(jī)打開展開

基于文本的web圖片搜索引擎的研究,65頁共計(jì)39501字摘要本文研究工作是針對(duì)web圖片搜索引擎的應(yīng)用背景，以構(gòu)建大型web圖片搜索引擎為目標(biāo)，提出基于文本檢索方式的web圖片搜索引擎設(shè)計(jì)方案。文中介紹和研究了一系列與web圖片搜索引擎相關(guān)的技術(shù)，包括網(wǎng)頁抓取、相關(guān)性排序（vsm和lsi）、信息提取、信息索引等，這些技術(shù)將被應(yīng)用到文中提出的系統(tǒng)設(shè)計(jì)方案...
編號(hào):45-37707大小:1.19M
分類: 論文>計(jì)算機(jī)論文

內(nèi)容介紹

此文檔由會(huì)員 bfxqt 發(fā)布

65頁共計(jì)39501字
摘要
本文研究工作是針對(duì)Web圖片搜索引擎的應(yīng)用背景，以構(gòu)建大型Web圖片搜索引擎為目標(biāo)，提出基于文本檢索方式的Web圖片搜索引擎設(shè)計(jì)方案。
文中介紹和研究了一系列與Web圖片搜索引擎相關(guān)的技術(shù)，包括網(wǎng)頁抓取、相關(guān)性排序（VSM和LSI）、信息提取、信息索引等，這些技術(shù)將被應(yīng)用到文中提出的系統(tǒng)設(shè)計(jì)方案中。
本文重點(diǎn)地研究如何從HTML文檔中提取圖片相關(guān)信息，保證高效和準(zhǔn)確的實(shí)現(xiàn)圖片檢索。在對(duì)真實(shí)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)和分析的基礎(chǔ)上，提出了若干關(guān)鍵技術(shù)，用于系統(tǒng)的設(shè)計(jì)，現(xiàn)歸納如下：
1) 本文提出的方法通過細(xì)致地分析HTML文件的標(biāo)記、標(biāo)記、網(wǎng)頁標(biāo)題、網(wǎng)頁的超鏈接文本、圖片URL、標(biāo)記、關(guān)聯(lián)的和結(jié)構(gòu)、結(jié)構(gòu)、圖片周圍文本等部分的結(jié)構(gòu)特點(diǎn)，并利用真實(shí)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)驗(yàn)證，總結(jié)了9條提取模式，用于從這些結(jié)構(gòu)中提取與圖片相關(guān)的信息，以保證提取到的信息相關(guān)性程度較高。研究了三種具體的提取方法：基于DOM的方法、基于字符串的方法和基于Wrapper的方法。
2) 提出了過濾無用圖片的方法，提高了系統(tǒng)中圖片的可用度。該方法將圖片文件大小小于某一閾值，圖片的長(zhǎng)或?qū)捫∮谀骋婚撝?，圖片的長(zhǎng)寬比例超過某一閾值以及同一網(wǎng)頁內(nèi)通過引用次數(shù)超過某一閾值的圖片作為無用圖片剔除。
3) 通過統(tǒng)計(jì)分析總結(jié)出HTML文件中表現(xiàn)出的一些潛在規(guī)律，比如JPG和GIF的區(qū)別、和標(biāo)記的不同意義以及圖片引用次數(shù)的不同意義。得到如下結(jié)論：JPG重要性大于GIF；標(biāo)記來源圖片的重要性大于標(biāo)記的圖片；引用次數(shù)越高的圖片重要性越高，而引用次數(shù)高的圖片需要經(jīng)過過濾才能保證重要性較高。
4) 粗略地探討了將LSI算法應(yīng)用于圖片搜索引擎來整合文字和內(nèi)容信息的方法，并通過簡(jiǎn)單實(shí)驗(yàn)進(jìn)行了效果驗(yàn)證。
5) 設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于文本的Web圖片搜索引擎，給出了系統(tǒng)的總體結(jié)構(gòu)圖，并對(duì)獲取網(wǎng)頁、提取信息、圖片抓取和死鏈檢查、生成縮略圖、建立索引和提供查詢這6個(gè)工作流程進(jìn)行了詳細(xì)的描述，最后對(duì)系統(tǒng)的使用效果和性能進(jìn)行了簡(jiǎn)單評(píng)測(cè)。
目錄
第1章引言 1
1.1 背景 1
1.2 圖片檢索系統(tǒng)概述 3
1.2.1 系統(tǒng)應(yīng)用領(lǐng)域 3
1.2.2 用戶檢索方式 3
1.2.3 系統(tǒng)評(píng)價(jià) 4
1.3 研究現(xiàn)狀 5
1.4 現(xiàn)有圖片檢索系統(tǒng)簡(jiǎn)介 5
1.5 本文的主要工作 8
第2章相關(guān)技術(shù) 10
2.1 網(wǎng)頁抓取技術(shù) 10
2.1.1 基本原理 10
2.1.2 大型Spider的問題 10
2.2 相關(guān)性排序技術(shù) 11
2.2.1 VSM 12
2.2.2 VSM的改良：LSI 13
2.3 信息提取技術(shù) 15
2.3.1 基于內(nèi)容的提取技術(shù) 15
2.3.2 基于文本的提取技術(shù) 17
2.4 信息索引技術(shù) 17
2.4.1 索引方式 18
2.4.2 提高索引的性能 19
2.5 其它相關(guān)技術(shù) 20
2.6 本章小結(jié) 21
第3章 WEB上的圖片信息提取 22
3.1 HTML簡(jiǎn)介 22
3.2 圖片信息提取模式 23
3.3 HTML信息提取方法 27
3.3.1 HTML文檔的規(guī)范化 27
3.3.2 基于DOM的提取方法 27
3.3.3 基于字符串的提取方法 28
3.3.4 基于Wrapper的提取方法 28
3.4 無用圖片過濾 30
3.5 挖掘HTML的潛在規(guī)律 31
3.5.1 GIF和JPG的區(qū)別 31
3.5.2 和的不同意義 32
3.5.3 圖片引用次數(shù)的分析 32
3.6 基于文本和基于內(nèi)容的整合模式 34
3.7 本章小結(jié) 37
第4章 WEB圖片搜索引擎的設(shè)計(jì)和實(shí)現(xiàn) 38
4.1 系統(tǒng)簡(jiǎn)介 38
4.2 系統(tǒng)詳細(xì)工作流程 40
4.2.1 獲取網(wǎng)頁 40
4.2.2 提取信息 40
4.2.3 圖片抓取和死鏈檢查 42
4.2.4 生成縮略圖 42
4.2.5 建立索引 43
4.2.6 提供查詢 47
4.3 系統(tǒng)評(píng)測(cè) 50
4.4 本章小結(jié) 51
第5章總結(jié)和展望 52
5.1 主要工作總結(jié) 52
5.2 技術(shù)發(fā)展方向 52
參考文獻(xiàn) 54
致謝 58

關(guān)鍵詞：Web圖片搜索引擎圖像檢索基于文本基于內(nèi)容信息提取
參考文獻(xiàn)
[1]. 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心（CNNIC）?！?003年中國(guó)互聯(lián)網(wǎng)絡(luò)信息資源數(shù)量調(diào)查報(bào)告》（2004.4.1）。http://www.cnnic.com.cn/index/0E/00/12/index.htm
[2]. Arvind Arasu et al. Searching The Web. ACM Transactions on Internet Technology, Volume 1, Issue 1, Pages 2 – 43, August 2001
[3]. Lawrence Page, Sergey Brin. The pagerank citation ranking: Bringing order to the Web. In Technical report, Computer Science Department, Stanford University, 1998.
[4]. E. V. Munson and Y. Tsymbalenko. To Search for Images on the Web, Look at the Text, Then Look at the Images, in Proceedings of the First International Workshop on Web Document Analysis, Seattle, pages 39-42, September 2001.
[5]. M. La Cascia, S. Sethi, and S. Sclaroff . Combining Textual and Visual Cues for Content-based Image Retrieval on the World Wide Web. Proc. IEEE Workshop on Content-Based Access of Image and Video Libraries, June 1998
[6]. 百度圖片搜索。http://image.baidu.com
[7]. Google圖像搜索。http://images.google.com/
[8]. ImageRover. http://www.cs.bu.edu/groups/ivc/ImageRover
[9]. WebSeer. http://infolab.cs.uchicago.edu/Webseer
[10]. WebSeek. http://www.ctr.columbia.edu/WebSEEk/
[11]. ImageSpace. http://www.wi.leidenuniv.nl/home/lim/image.scape.HTML
[12]. Scott C. Deerwester, Susan T. Dumais, Thomas K. Landauer, George W. Furnas, and Richard A. Harshman. Indexing by Latent Semantic Analysis. Journal of the American Society of Information Science, 41(6):391--407, 1990
[13]. Landauer, T. K., Foltz, P. W., and Laham, D. Introduction to Latent Semantic Analysis. Discourse Processes, 25, 259-284, 1998
[14]. H.T. Shen, B.C. Ooi, and K.L. Tan. Giving Meanings to WWW Images. ACM Multimedia'2000, pp 39-48
[15]. Zheng Chen, Liu Wenyin, Feng Zhang, Minjing Li and Hongjiang Zhang. Web Mining for Web Image Retrieval. Journal of the American Society for Information Science, vol. 52, No. 10, pp. 831-839, 2001
[16]. Zheng Chen, Liu Wenyin, Rui Yang, Mingjing Li and HongJiang Zhang. A Web Media Agent. WWW Posters 2001. The 3rd Annual Conference on World Wide Web Applications, September 5-7, 2001

TA們正在看...

相關(guān)文檔

幫助中心
呼吸機(jī)
幫助中心

官方微信

支付寶紅包

豆知網(wǎng) 教育科研學(xué)術(shù)文檔分享平臺(tái)

可信/實(shí)名雙認(rèn)證網(wǎng)站川公網(wǎng)安備 51010502011102號(hào)

豆知 . 豆知文庫版權(quán)所有 - 2008-2025 蜀ICP備2023009049號(hào)-1

<del id="sdffd"><kbd id="sdffd"><b id="sdffd"></b></kbd></del>

<del id="sdffd"></del><nav id="sdffd"><li id="sdffd"></li></nav>

<sub id="sdffd"></sub>

<nav id="sdffd"><nobr id="sdffd"></nobr></nav>

<span id="sdffd"><tbody id="sdffd"></tbody></span>