word格式--校園網(wǎng)搜索引擎中網(wǎng)頁(yè)去重技術(shù)的研究.doc
約73頁(yè)DOC格式手機(jī)打開(kāi)展開(kāi)
word格式--校園網(wǎng)搜索引擎中網(wǎng)頁(yè)去重技術(shù)的研究,隨著校園網(wǎng)建設(shè)的迅速發(fā)展,校園網(wǎng)信息資源迅速增加,這使得全校師生迅速定位有價(jià)值的信息難度較大,浪費(fèi)時(shí)間而且效率低下?;谛@網(wǎng)自身的特點(diǎn),發(fā)展較成熟的通用搜索引擎不能完全適用于校園網(wǎng),并且大量轉(zhuǎn)載網(wǎng)頁(yè)的存在造成檢索結(jié)果重復(fù)頁(yè)過(guò)多。通過(guò)分析校園網(wǎng)網(wǎng)頁(yè)的特點(diǎn)和現(xiàn)有去重技術(shù),以解決校園網(wǎng)搜索引擎檢索結(jié)果重復(fù)網(wǎng)頁(yè)過(guò)多問(wèn)題,針對(duì)...


內(nèi)容介紹
此文檔由會(huì)員 qw-u0uoiz 發(fā)布
隨著校園網(wǎng)建設(shè)的迅速發(fā)展,校園網(wǎng)信息資源迅速增加,這使得全校師生迅速定位有價(jià)值的信息難度較大,浪費(fèi)時(shí)間而且效率低下?;谛@網(wǎng)自身的特點(diǎn),發(fā)展較成熟的通用搜索引擎不能完全適用于校園網(wǎng),并且大量轉(zhuǎn)載網(wǎng)頁(yè)的存在造成檢索結(jié)果重復(fù)頁(yè)過(guò)多。通過(guò)分析校園網(wǎng)網(wǎng)頁(yè)的特點(diǎn)和現(xiàn)有去重技術(shù),以解決校園網(wǎng)搜索引擎檢索結(jié)果重復(fù)網(wǎng)頁(yè)過(guò)多問(wèn)題,針對(duì)不同類型的重復(fù)網(wǎng)頁(yè),采用在索引和實(shí)時(shí)檢索時(shí)分別去重的策略,構(gòu)建了校園網(wǎng)搜索引擎,完成了如下幾項(xiàng)工作:
第一,對(duì)網(wǎng)頁(yè)去重的準(zhǔn)備工作進(jìn)行了研究和分析。首先,分析網(wǎng)頁(yè)噪音產(chǎn)生的原因、噪音的定義及類型,采用合并內(nèi)容塊技術(shù)對(duì)原始網(wǎng)頁(yè)集進(jìn)行噪音去除和正文抽取,以獲得網(wǎng)頁(yè)的正文內(nèi)容。其次,研究中文分詞技術(shù),對(duì)比現(xiàn)有中文分詞技術(shù),最終采用庖丁解牛分詞軟件,對(duì)Nutch進(jìn)行二次開(kāi)發(fā)——修改Nutch源碼,實(shí)現(xiàn)中文分詞。
第二,對(duì)索引時(shí)網(wǎng)頁(yè)去重算法進(jìn)行研究和改進(jìn)。分析現(xiàn)有算法,針對(duì)完全重復(fù)或部分重復(fù)的網(wǎng)頁(yè),采用最長(zhǎng)段落簽名的網(wǎng)頁(yè)去重算法。首先對(duì)整篇文檔簽名后去重,其次對(duì)去重過(guò)濾后的文檔分段,對(duì)分好的段落排序,再取前N個(gè)段落對(duì)其進(jìn)行指紋簽名,將其作為文檔的特征,當(dāng)這兩個(gè)文檔中相同段落數(shù)超過(guò)系統(tǒng)給定的一個(gè)閾值時(shí),就判定這兩個(gè)文檔為相互重復(fù)的文檔。提取前N段并進(jìn)行指紋排序大大降低了計(jì)算的復(fù)雜度。實(shí)驗(yàn)證明,該方法有較高的去重準(zhǔn)確率。
第三,針對(duì)網(wǎng)頁(yè)轉(zhuǎn)載時(shí)對(duì)原網(wǎng)頁(yè)進(jìn)行微小修改而產(chǎn)生的重復(fù)網(wǎng)頁(yè),在實(shí)時(shí)檢索時(shí)采用優(yōu)化傅立葉變換去重算法。該算法把每篇文檔的每個(gè)詞映射成一個(gè)數(shù)值Fingerprint,那么每篇文檔就可以表示成一個(gè)離散數(shù)值序列。對(duì)該數(shù)值序列進(jìn)行傅立葉變換得到傅立葉系數(shù),比較系數(shù)的前若干項(xiàng)即可大致比較出兩個(gè)數(shù)列的相似性。實(shí)驗(yàn)證明,基于優(yōu)化傅立葉變換的去重算法能夠在網(wǎng)頁(yè)發(fā)生修改的時(shí)候兼顧查全率和去重率。
以Nutch作為系統(tǒng)的開(kāi)發(fā)工具,通過(guò)對(duì)Nutch源碼進(jìn)行修改實(shí)現(xiàn)索引時(shí)的去重算法,并采用插件形式實(shí)現(xiàn)檢索時(shí)的網(wǎng)頁(yè)去重算法,在Nutch的基礎(chǔ)上設(shè)計(jì)實(shí)現(xiàn)校園網(wǎng)搜索引擎,并詳細(xì)說(shuō)明了校園網(wǎng)搜索引擎系統(tǒng)開(kāi)發(fā)過(guò)程和方法。最后對(duì)提出的去重策略進(jìn)行實(shí)驗(yàn)性能測(cè)試,采用Nutch爬取校園網(wǎng)網(wǎng)頁(yè)作為實(shí)驗(yàn)的數(shù)據(jù)集,結(jié)果表明將兩種算法結(jié)合的去重策略提高了搜索結(jié)果的精確度和去重的準(zhǔn)確率,并且搭建的校園網(wǎng)搜索引擎系統(tǒng)能夠有效的、正常的運(yùn)行。
第一,對(duì)網(wǎng)頁(yè)去重的準(zhǔn)備工作進(jìn)行了研究和分析。首先,分析網(wǎng)頁(yè)噪音產(chǎn)生的原因、噪音的定義及類型,采用合并內(nèi)容塊技術(shù)對(duì)原始網(wǎng)頁(yè)集進(jìn)行噪音去除和正文抽取,以獲得網(wǎng)頁(yè)的正文內(nèi)容。其次,研究中文分詞技術(shù),對(duì)比現(xiàn)有中文分詞技術(shù),最終采用庖丁解牛分詞軟件,對(duì)Nutch進(jìn)行二次開(kāi)發(fā)——修改Nutch源碼,實(shí)現(xiàn)中文分詞。
第二,對(duì)索引時(shí)網(wǎng)頁(yè)去重算法進(jìn)行研究和改進(jìn)。分析現(xiàn)有算法,針對(duì)完全重復(fù)或部分重復(fù)的網(wǎng)頁(yè),采用最長(zhǎng)段落簽名的網(wǎng)頁(yè)去重算法。首先對(duì)整篇文檔簽名后去重,其次對(duì)去重過(guò)濾后的文檔分段,對(duì)分好的段落排序,再取前N個(gè)段落對(duì)其進(jìn)行指紋簽名,將其作為文檔的特征,當(dāng)這兩個(gè)文檔中相同段落數(shù)超過(guò)系統(tǒng)給定的一個(gè)閾值時(shí),就判定這兩個(gè)文檔為相互重復(fù)的文檔。提取前N段并進(jìn)行指紋排序大大降低了計(jì)算的復(fù)雜度。實(shí)驗(yàn)證明,該方法有較高的去重準(zhǔn)確率。
第三,針對(duì)網(wǎng)頁(yè)轉(zhuǎn)載時(shí)對(duì)原網(wǎng)頁(yè)進(jìn)行微小修改而產(chǎn)生的重復(fù)網(wǎng)頁(yè),在實(shí)時(shí)檢索時(shí)采用優(yōu)化傅立葉變換去重算法。該算法把每篇文檔的每個(gè)詞映射成一個(gè)數(shù)值Fingerprint,那么每篇文檔就可以表示成一個(gè)離散數(shù)值序列。對(duì)該數(shù)值序列進(jìn)行傅立葉變換得到傅立葉系數(shù),比較系數(shù)的前若干項(xiàng)即可大致比較出兩個(gè)數(shù)列的相似性。實(shí)驗(yàn)證明,基于優(yōu)化傅立葉變換的去重算法能夠在網(wǎng)頁(yè)發(fā)生修改的時(shí)候兼顧查全率和去重率。
以Nutch作為系統(tǒng)的開(kāi)發(fā)工具,通過(guò)對(duì)Nutch源碼進(jìn)行修改實(shí)現(xiàn)索引時(shí)的去重算法,并采用插件形式實(shí)現(xiàn)檢索時(shí)的網(wǎng)頁(yè)去重算法,在Nutch的基礎(chǔ)上設(shè)計(jì)實(shí)現(xiàn)校園網(wǎng)搜索引擎,并詳細(xì)說(shuō)明了校園網(wǎng)搜索引擎系統(tǒng)開(kāi)發(fā)過(guò)程和方法。最后對(duì)提出的去重策略進(jìn)行實(shí)驗(yàn)性能測(cè)試,采用Nutch爬取校園網(wǎng)網(wǎng)頁(yè)作為實(shí)驗(yàn)的數(shù)據(jù)集,結(jié)果表明將兩種算法結(jié)合的去重策略提高了搜索結(jié)果的精確度和去重的準(zhǔn)確率,并且搭建的校園網(wǎng)搜索引擎系統(tǒng)能夠有效的、正常的運(yùn)行。
TA們正在看...
- 新版gb7258解讀.doc
- 新版gb卓越績(jī)效評(píng)價(jià)準(zhǔn)則.doc
- 電子信息系統(tǒng)機(jī)房設(shè)計(jì)規(guī)范gb50174-2008解析與案例...doc
- 1楓樹(shù)上的喜鵲教案.doc
- 3函數(shù)的奇偶性教案.doc
- 4新北師大版二級(jí)下冊(cè)數(shù)教案含教反思533.doc
- 4有理數(shù)的乘法教案.doc
- 5新版pep小英語(yǔ)五級(jí)下冊(cè)全冊(cè)教案.doc
- 9建筑工程定額與預(yù)算教案.doc
- access數(shù)據(jù)庫(kù)基礎(chǔ)教程教案.doc