国产精品婷婷久久久久久,国产精品美女久久久浪潮av,草草国产,人妻精品久久无码专区精东影业

基于weka數(shù)據(jù)挖掘工具的設計與開發(fā).doc

約52頁DOC格式手機打開展開

基于weka數(shù)據(jù)挖掘工具的設計與開發(fā),目 錄摘 要iabstractii第1章 緒 論11.1 課題背景11.2 國內外數(shù)據(jù)挖掘的應用與研究現(xiàn)狀11.3 課題意義21.4 本文內容3第2章 數(shù)據(jù)挖掘簡介42.1 數(shù)據(jù)挖掘42.1.1 數(shù)據(jù)挖掘的定義42.1.2 數(shù)據(jù)挖掘的方法52.1.3 數(shù)據(jù)挖掘流程72.1.4 數(shù)據(jù)挖掘的應用72.1.5 數(shù)據(jù)挖掘工具9...
編號:45-166509大小:1.12M
分類: 論文>通信/電子論文

內容介紹

此文檔由會員 li484167 發(fā)布

目 錄
摘 要 I
Abstract II
第1章 緒 論 1
1.1 課題背景 1
1.2 國內外數(shù)據(jù)挖掘的應用與研究現(xiàn)狀 1
1.3 課題意義 2
1.4 本文內容 3
第2章 數(shù)據(jù)挖掘簡介 4
2.1 數(shù)據(jù)挖掘 4
2.1.1 數(shù)據(jù)挖掘的定義 4
2.1.2 數(shù)據(jù)挖掘的方法 5
2.1.3 數(shù)據(jù)挖掘流程 7
2.1.4 數(shù)據(jù)挖掘的應用 7
2.1.5 數(shù)據(jù)挖掘工具 9
2.2 聚類分析方法 10
2.3 本章小節(jié) 11
第3章 譜聚類分析方法基礎理論 12
3.1 相似圖 12
3.1.1 圖符號 12
3.1.2 幾種相似圖 13
3.2 譜聚類分析方法的原理 14
3.2.1 多路規(guī)一化截斷 14
3.2.2 求解K-路規(guī)一化分割 16
3.2.3 譜聚類算法 21
3.3 本章小節(jié) 23
第4章 譜聚類分析方法在Weka中的設計與實現(xiàn) 24
4.1 Weka數(shù)據(jù)挖掘工具的基本結構 24
4.1.1 Weka的系統(tǒng)構架 24
4.1.2 ARFF(Attribute-Relation File Format)文件結構 25
4.2 Weka聚類器的相關接口概述 26
4.2.1 聚類器的接口簡述 29
4.2.2 聚類器的調用過程 32
4.3 譜聚類算法在Weka中的實現(xiàn) 33
4.3.1 譜聚類算法的方法概述 34
4.3.2 一些重要函數(shù)的主要代碼說明 35
4.4 本章小節(jié) 37
第5章 譜聚類算法的測試與應用 38
5.1 譜聚類算法在Weka中的測試 38
5.2 譜聚類算法的應用 40
5.2.1 公司分拆問題 40
5.2.2 一個3D螺旋圖聚類問題 42
5.3 本章小節(jié) 43
結 論 44
參考文獻 45
致謝 47
附錄 48
 
摘 要
隨著技術的不斷發(fā)展,現(xiàn)在的數(shù)據(jù)挖掘越來越流行,越來越多的人使用機器學習進行數(shù)據(jù)挖掘。很多公司都開發(fā)了數(shù)據(jù)挖掘工具,如SPSS公司的Clementine,SAS公司的Enterprise Miner,以及Matlab等商業(yè)軟件,跟操作系統(tǒng)一樣,有開源的Linux操作系統(tǒng),同樣也有開源的數(shù)據(jù)挖掘工具Weka,R-Project等等。本文主要對Weka來進行開發(fā),往Weka里加入譜聚類算法,譜聚類算法是一個相當成熟的聚類算法,雖然它利用到很多的矩陣運算,花的時間多,但譜聚類的結果比k-均值等其它聚類算法要好。首先要解一個松弛過的連續(xù)優(yōu)化問題,進行特征分解,闡明通過正交變換特征向量產(chǎn)生所有最優(yōu)解,然后解一個離散優(yōu)化問題,探索解離散值得到最鄰近連續(xù)最優(yōu)解。離散化在迭代過程中能高效的利用奇異值分解和無限制方程進行計算,由此得出的離散解接近全局最優(yōu)。最后把譜聚類算法集成到Weka后,通過一些實例來對其進行測試。
關鍵詞:數(shù)據(jù)挖掘、機器學習、Weka、譜聚類、k-均值。
 
Abstract
With the continuous development of technology , now the data mining is Gaining popularity, a lot of people use Machine Learning to do the data mining. Many companies have developed data mining tools, for example, for the Business Software, SPSS’s Clementin, SAS’s Enterprise Miner, Matlab and so on, the same as Operating System(OS), there is an open source OS Linux, also the open source data mining tools just as Weka, R-Project and so on. And we use Weka to do Secondary Development, add the Spectral Clustering algorithm into Weka, Spectral Clustering algorithm is A very mature clustering algorithm, though it use a lot of matrix to compute, spent a lot of time, its result of cluster is more better than k-means and other clustering algorithm. we first solve a relaxed continuous optimization problem by eigendecomposition. We clarify the role of eigenvectors as a generator of all optimal solutions through orthonormal transforms. We then solve an optimal discretization problem, which seeks a discrete solution closest to the continuous optima. The discretization is efficiently computed in an iterative fashion using singular value decomposition and nonmaximum suppression. The resulting discrete solutions are nearly global optimal. Finally, spectral clustering algorithm is integrated into Weka, and through some examples of its testing.
Keywords: data mining, machine learning, weka, spectral clustering, k-means.