word格式--校園網(wǎng)搜索引擎中網(wǎng)頁(yè)去重技術(shù)的研究.doc

約73頁(yè)DOC格式手機(jī)打開(kāi)展開(kāi)

word格式--校園網(wǎng)搜索引擎中網(wǎng)頁(yè)去重技術(shù)的研究,隨著校園網(wǎng)建設(shè)的迅速發(fā)展，校園網(wǎng)信息資源迅速增加，這使得全校師生迅速定位有價(jià)值的信息難度較大，浪費(fèi)時(shí)間而且效率低下?；谛@網(wǎng)自身的特點(diǎn)，發(fā)展較成熟的通用搜索引擎不能完全適用于校園網(wǎng)，并且大量轉(zhuǎn)載網(wǎng)頁(yè)的存在造成檢索結(jié)果重復(fù)頁(yè)過(guò)多。通過(guò)分析校園網(wǎng)網(wǎng)頁(yè)的特點(diǎn)和現(xiàn)有去重技術(shù)，以解決校園網(wǎng)搜索引擎檢索結(jié)果重復(fù)網(wǎng)頁(yè)過(guò)多問(wèn)題，針對(duì)...
編號(hào):99-545248大小:1.34M
分類: 論文>計(jì)算機(jī)論文

內(nèi)容介紹

此文檔由會(huì)員 qw-u0uoiz 發(fā)布

隨著校園網(wǎng)建設(shè)的迅速發(fā)展，校園網(wǎng)信息資源迅速增加，這使得全校師生迅速定位有價(jià)值的信息難度較大，浪費(fèi)時(shí)間而且效率低下?；谛@網(wǎng)自身的特點(diǎn)，發(fā)展較成熟的通用搜索引擎不能完全適用于校園網(wǎng)，并且大量轉(zhuǎn)載網(wǎng)頁(yè)的存在造成檢索結(jié)果重復(fù)頁(yè)過(guò)多。通過(guò)分析校園網(wǎng)網(wǎng)頁(yè)的特點(diǎn)和現(xiàn)有去重技術(shù)，以解決校園網(wǎng)搜索引擎檢索結(jié)果重復(fù)網(wǎng)頁(yè)過(guò)多問(wèn)題，針對(duì)不同類型的重復(fù)網(wǎng)頁(yè)，采用在索引和實(shí)時(shí)檢索時(shí)分別去重的策略，構(gòu)建了校園網(wǎng)搜索引擎，完成了如下幾項(xiàng)工作：
第一，對(duì)網(wǎng)頁(yè)去重的準(zhǔn)備工作進(jìn)行了研究和分析。首先，分析網(wǎng)頁(yè)噪音產(chǎn)生的原因、噪音的定義及類型，采用合并內(nèi)容塊技術(shù)對(duì)原始網(wǎng)頁(yè)集進(jìn)行噪音去除和正文抽取，以獲得網(wǎng)頁(yè)的正文內(nèi)容。其次，研究中文分詞技術(shù)，對(duì)比現(xiàn)有中文分詞技術(shù)，最終采用庖丁解牛分詞軟件，對(duì)Nutch進(jìn)行二次開(kāi)發(fā)——修改Nutch源碼，實(shí)現(xiàn)中文分詞。
第二，對(duì)索引時(shí)網(wǎng)頁(yè)去重算法進(jìn)行研究和改進(jìn)。分析現(xiàn)有算法，針對(duì)完全重復(fù)或部分重復(fù)的網(wǎng)頁(yè)，采用最長(zhǎng)段落簽名的網(wǎng)頁(yè)去重算法。首先對(duì)整篇文檔簽名后去重，其次對(duì)去重過(guò)濾后的文檔分段，對(duì)分好的段落排序，再取前N個(gè)段落對(duì)其進(jìn)行指紋簽名，將其作為文檔的特征，當(dāng)這兩個(gè)文檔中相同段落數(shù)超過(guò)系統(tǒng)給定的一個(gè)閾值時(shí)，就判定這兩個(gè)文檔為相互重復(fù)的文檔。提取前N段并進(jìn)行指紋排序大大降低了計(jì)算的復(fù)雜度。實(shí)驗(yàn)證明，該方法有較高的去重準(zhǔn)確率。
第三，針對(duì)網(wǎng)頁(yè)轉(zhuǎn)載時(shí)對(duì)原網(wǎng)頁(yè)進(jìn)行微小修改而產(chǎn)生的重復(fù)網(wǎng)頁(yè)，在實(shí)時(shí)檢索時(shí)采用優(yōu)化傅立葉變換去重算法。該算法把每篇文檔的每個(gè)詞映射成一個(gè)數(shù)值Fingerprint，那么每篇文檔就可以表示成一個(gè)離散數(shù)值序列。對(duì)該數(shù)值序列進(jìn)行傅立葉變換得到傅立葉系數(shù)，比較系數(shù)的前若干項(xiàng)即可大致比較出兩個(gè)數(shù)列的相似性。實(shí)驗(yàn)證明，基于優(yōu)化傅立葉變換的去重算法能夠在網(wǎng)頁(yè)發(fā)生修改的時(shí)候兼顧查全率和去重率。
以Nutch作為系統(tǒng)的開(kāi)發(fā)工具，通過(guò)對(duì)Nutch源碼進(jìn)行修改實(shí)現(xiàn)索引時(shí)的去重算法，并采用插件形式實(shí)現(xiàn)檢索時(shí)的網(wǎng)頁(yè)去重算法，在Nutch的基礎(chǔ)上設(shè)計(jì)實(shí)現(xiàn)校園網(wǎng)搜索引擎，并詳細(xì)說(shuō)明了校園網(wǎng)搜索引擎系統(tǒng)開(kāi)發(fā)過(guò)程和方法。最后對(duì)提出的去重策略進(jìn)行實(shí)驗(yàn)性能測(cè)試，采用Nutch爬取校園網(wǎng)網(wǎng)頁(yè)作為實(shí)驗(yàn)的數(shù)據(jù)集，結(jié)果表明將兩種算法結(jié)合的去重策略提高了搜索結(jié)果的精確度和去重的準(zhǔn)確率，并且搭建的校園網(wǎng)搜索引擎系統(tǒng)能夠有效的、正常的運(yùn)行。

国产精品婷婷久久久久久,国产精品美女久久久浪潮av,草草国产,人妻精品久久无码专区精东影业

word格式--校園網(wǎng)搜索引擎中網(wǎng)頁(yè)去重技術(shù)的研究.doc

內(nèi)容介紹

TA們正在看...

相關(guān)文檔

官方微信

支付寶紅包