国产精品婷婷久久久久久,国产精品美女久久久浪潮av,草草国产,人妻精品久久无码专区精东影业

基于文本的web圖片搜索引擎的研究.doc

約65頁DOC格式手機打開展開

基于文本的web圖片搜索引擎的研究,65頁共計39501字摘要本文研究工作是針對web圖片搜索引擎的應(yīng)用背景,以構(gòu)建大型web圖片搜索引擎為目標(biāo),提出基于文本檢索方式的web圖片搜索引擎設(shè)計方案。文中介紹和研究了一系列與web圖片搜索引擎相關(guān)的技術(shù),包括網(wǎng)頁抓取、相關(guān)性排序(vsm和lsi)、信息提取、信息索引等,這些技術(shù)將被應(yīng)用到文中提出的系統(tǒng)設(shè)計方案...
編號:45-37707大小:1.19M
分類: 論文>計算機論文

內(nèi)容介紹

此文檔由會員 bfxqt 發(fā)布

65頁共計39501字
摘 要
本文研究工作是針對Web圖片搜索引擎的應(yīng)用背景,以構(gòu)建大型Web圖片搜索引擎為目標(biāo),提出基于文本檢索方式的Web圖片搜索引擎設(shè)計方案。
文中介紹和研究了一系列與Web圖片搜索引擎相關(guān)的技術(shù),包括網(wǎng)頁抓取、相關(guān)性排序(VSM和LSI)、信息提取、信息索引等,這些技術(shù)將被應(yīng)用到文中提出的系統(tǒng)設(shè)計方案中。
本文重點地研究如何從HTML文檔中提取圖片相關(guān)信息,保證高效和準(zhǔn)確的實現(xiàn)圖片檢索。在對真實數(shù)據(jù)進行實驗和分析的基礎(chǔ)上,提出了若干關(guān)鍵技術(shù),用于系統(tǒng)的設(shè)計,現(xiàn)歸納如下:
1) 本文提出的方法通過細(xì)致地分析HTML文件的標(biāo)記、標(biāo)記、網(wǎng)頁標(biāo)題、網(wǎng)頁的超鏈接文本、圖片URL、標(biāo)記、關(guān)聯(lián)的結(jié)構(gòu)、結(jié)構(gòu)、圖片周圍文本等部分的結(jié)構(gòu)特點,并利用真實數(shù)據(jù)進行實驗驗證,總結(jié)了9條提取模式,用于從這些結(jié)構(gòu)中提取與圖片相關(guān)的信息,以保證提取到的信息相關(guān)性程度較高。研究了三種具體的提取方法:基于DOM的方法、基于字符串的方法和基于Wrapper的方法。
2) 提出了過濾無用圖片的方法,提高了系統(tǒng)中圖片的可用度。該方法將圖片文件大小小于某一閾值,圖片的長或?qū)捫∮谀骋婚撝?,圖片的長寬比例超過某一閾值以及同一網(wǎng)頁內(nèi)通過引用次數(shù)超過某一閾值的圖片作為無用圖片剔除。
3) 通過統(tǒng)計分析總結(jié)出HTML文件中表現(xiàn)出的一些潛在規(guī)律,比如JPG和GIF的區(qū)別、標(biāo)記的不同意義以及圖片引用次數(shù)的不同意義。得到如下結(jié)論:JPG重要性大于GIF;標(biāo)記來源圖片的重要性大于標(biāo)記的圖片;引用次數(shù)越高的圖片重要性越高,而引用次數(shù)高的圖片需要經(jīng)過過濾才能保證重要性較高。
4) 粗略地探討了將LSI算法應(yīng)用于圖片搜索引擎來整合文字和內(nèi)容信息的方法,并通過簡單實驗進行了效果驗證。
5) 設(shè)計并實現(xiàn)了一個基于文本的Web圖片搜索引擎,給出了系統(tǒng)的總體結(jié)構(gòu)圖,并對獲取網(wǎng)頁、提取信息、圖片抓取和死鏈檢查、生成縮略圖、建立索引和提供查詢這6個工作流程進行了詳細(xì)的描述,最后對系統(tǒng)的使用效果和性能進行了簡單評測。
目 錄
第1章 引言 1
1.1 背景 1
1.2 圖片檢索系統(tǒng)概述 3
1.2.1 系統(tǒng)應(yīng)用領(lǐng)域 3
1.2.2 用戶檢索方式 3
1.2.3 系統(tǒng)評價 4
1.3 研究現(xiàn)狀 5
1.4 現(xiàn)有圖片檢索系統(tǒng)簡介 5
1.5 本文的主要工作 8
第2章 相關(guān)技術(shù) 10
2.1 網(wǎng)頁抓取技術(shù) 10
2.1.1 基本原理 10
2.1.2 大型Spider的問題 10
2.2 相關(guān)性排序技術(shù) 11
2.2.1 VSM 12
2.2.2 VSM的改良:LSI 13
2.3 信息提取技術(shù) 15
2.3.1 基于內(nèi)容的提取技術(shù) 15
2.3.2 基于文本的提取技術(shù) 17
2.4 信息索引技術(shù) 17
2.4.1 索引方式 18
2.4.2 提高索引的性能 19
2.5 其它相關(guān)技術(shù) 20
2.6 本章小結(jié) 21
第3章 WEB上的圖片信息提取 22
3.1 HTML簡介 22
3.2 圖片信息提取模式 23
3.3 HTML信息提取方法 27
3.3.1 HTML文檔的規(guī)范化 27
3.3.2 基于DOM的提取方法 27
3.3.3 基于字符串的提取方法 28
3.3.4 基于Wrapper的提取方法 28
3.4 無用圖片過濾 30
3.5 挖掘HTML的潛在規(guī)律 31
3.5.1 GIF和JPG的區(qū)別 31
3.5.2
的不同意義 32
3.5.3 圖片引用次數(shù)的分析 32
3.6 基于文本和基于內(nèi)容的整合模式 34
3.7 本章小結(jié) 37
第4章 WEB圖片搜索引擎的設(shè)計和實現(xiàn) 38
4.1 系統(tǒng)簡介 38
4.2 系統(tǒng)詳細(xì)工作流程 40
4.2.1 獲取網(wǎng)頁 40
4.2.2 提取信息 40
4.2.3 圖片抓取和死鏈檢查 42
4.2.4 生成縮略圖 42
4.2.5 建立索引 43
4.2.6 提供查詢 47
4.3 系統(tǒng)評測 50
4.4 本章小結(jié) 51
第5章 總結(jié)和展望 52
5.1 主要工作總結(jié) 52
5.2 技術(shù)發(fā)展方向 52
參 考 文 獻 54
致 謝 58

關(guān)鍵詞:Web圖片搜索引擎 圖像檢索 基于文本 基于內(nèi)容 信息提取
參 考 文 獻
[1]. 中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)?!?003年中國互聯(lián)網(wǎng)絡(luò)信息資源數(shù)量調(diào)查報告》(2004.4.1)。http://www.cnnic.com.cn/index/0E/00/12/index.htm
[2]. Arvind Arasu et al. Searching The Web. ACM Transactions on Internet Technology, Volume 1, Issue 1, Pages 2 – 43, August 2001
[3]. Lawrence Page, Sergey Brin. The pagerank citation ranking: Bringing order to the Web. In Technical report, Computer Science Department, Stanford University, 1998.
[4]. E. V. Munson and Y. Tsymbalenko. To Search for Images on the Web, Look at the Text, Then Look at the Images, in Proceedings of the First International Workshop on Web Document Analysis, Seattle, pages 39-42, September 2001.
[5]. M. La Cascia, S. Sethi, and S. Sclaroff . Combining Textual and Visual Cues for Content-based Image Retrieval on the World Wide Web. Proc. IEEE Workshop on Content-Based Access of Image and Video Libraries, June 1998
[6]. 百度圖片搜索。http://image.baidu.com
[7]. Google圖像搜索。http://images.google.com/
[8]. ImageRover. http://www.cs.bu.edu/groups/ivc/ImageRover
[9]. WebSeer. http://infolab.cs.uchicago.edu/Webseer
[10]. WebSeek. http://www.ctr.columbia.edu/WebSEEk/
[11]. ImageSpace. http://www.wi.leidenuniv.nl/home/lim/image.scape.HTML
[12]. Scott C. Deerwester, Susan T. Dumais, Thomas K. Landauer, George W. Furnas, and Richard A. Harshman. Indexing by Latent Semantic Analysis. Journal of the American Society of Information Science, 41(6):391--407, 1990
[13]. Landauer, T. K., Foltz, P. W., and Laham, D. Introduction to Latent Semantic Analysis. Discourse Processes, 25, 259-284, 1998
[14]. H.T. Shen, B.C. Ooi, and K.L. Tan. Giving Meanings to WWW Images. ACM Multimedia'2000, pp 39-48
[15]. Zheng Chen, Liu Wenyin, Feng Zhang, Minjing Li and Hongjiang Zhang. Web Mining for Web Image Retrieval. Journal of the American Society for Information Science, vol. 52, No. 10, pp. 831-839, 2001
[16]. Zheng Chen, Liu Wenyin, Rui Yang, Mingjing Li and HongJiang Zhang. A Web Media Agent. WWW Posters 2001. The 3rd Annual Conference on World Wide Web Applications, September 5-7, 2001

          <i id="wa4pr"></i><p id="wa4pr"></p>