基于weka數(shù)據(jù)挖掘工具的設(shè)計與開發(fā).doc
基于weka數(shù)據(jù)挖掘工具的設(shè)計與開發(fā),目 錄摘 要iabstractii第1章 緒 論11.1 課題背景11.2 國內(nèi)外數(shù)據(jù)挖掘的應(yīng)用與研究現(xiàn)狀11.3 課題意義21.4 本文內(nèi)容3第2章 數(shù)據(jù)挖掘簡介42.1 數(shù)據(jù)挖掘42.1.1 數(shù)據(jù)挖掘的定義42.1.2 數(shù)據(jù)挖掘的方法52.1.3 數(shù)據(jù)挖掘流程72.1.4 數(shù)據(jù)挖掘的應(yīng)用72.1.5 數(shù)據(jù)挖掘工具9...


內(nèi)容介紹
此文檔由會員 li484167 發(fā)布目 錄
摘 要 I
Abstract II
第1章 緒 論 1
1.1 課題背景 1
1.2 國內(nèi)外數(shù)據(jù)挖掘的應(yīng)用與研究現(xiàn)狀 1
1.3 課題意義 2
1.4 本文內(nèi)容 3
第2章 數(shù)據(jù)挖掘簡介 4
2.1 數(shù)據(jù)挖掘 4
2.1.1 數(shù)據(jù)挖掘的定義 4
2.1.2 數(shù)據(jù)挖掘的方法 5
2.1.3 數(shù)據(jù)挖掘流程 7
2.1.4 數(shù)據(jù)挖掘的應(yīng)用 7
2.1.5 數(shù)據(jù)挖掘工具 9
2.2 聚類分析方法 10
2.3 本章小節(jié) 11
第3章 譜聚類分析方法基礎(chǔ)理論 12
3.1 相似圖 12
3.1.1 圖符號 12
3.1.2 幾種相似圖 13
3.2 譜聚類分析方法的原理 14
3.2.1 多路規(guī)一化截斷 14
3.2.2 求解K-路規(guī)一化分割 16
3.2.3 譜聚類算法 21
3.3 本章小節(jié) 23
第4章 譜聚類分析方法在Weka中的設(shè)計與實現(xiàn) 24
4.1 Weka數(shù)據(jù)挖掘工具的基本結(jié)構(gòu) 24
4.1.1 Weka的系統(tǒng)構(gòu)架 24
4.1.2 ARFF(Attribute-Relation File Format)文件結(jié)構(gòu) 25
4.2 Weka聚類器的相關(guān)接口概述 26
4.2.1 聚類器的接口簡述 29
4.2.2 聚類器的調(diào)用過程 32
4.3 譜聚類算法在Weka中的實現(xiàn) 33
4.3.1 譜聚類算法的方法概述 34
4.3.2 一些重要函數(shù)的主要代碼說明 35
4.4 本章小節(jié) 37
第5章 譜聚類算法的測試與應(yīng)用 38
5.1 譜聚類算法在Weka中的測試 38
5.2 譜聚類算法的應(yīng)用 40
5.2.1 公司分拆問題 40
5.2.2 一個3D螺旋圖聚類問題 42
5.3 本章小節(jié) 43
結(jié) 論 44
參考文獻 45
致謝 47
附錄 48
摘 要
隨著技術(shù)的不斷發(fā)展,現(xiàn)在的數(shù)據(jù)挖掘越來越流行,越來越多的人使用機器學(xué)習(xí)進行數(shù)據(jù)挖掘。很多公司都開發(fā)了數(shù)據(jù)挖掘工具,如SPSS公司的Clementine,SAS公司的Enterprise Miner,以及Matlab等商業(yè)軟件,跟操作系統(tǒng)一樣,有開源的Linux操作系統(tǒng),同樣也有開源的數(shù)據(jù)挖掘工具Weka,R-Project等等。本文主要對Weka來進行開發(fā),往Weka里加入譜聚類算法,譜聚類算法是一個相當(dāng)成熟的聚類算法,雖然它利用到很多的矩陣運算,花的時間多,但譜聚類的結(jié)果比k-均值等其它聚類算法要好。首先要解一個松弛過的連續(xù)優(yōu)化問題,進行特征分解,闡明通過正交變換特征向量產(chǎn)生所有最優(yōu)解,然后解一個離散優(yōu)化問題,探索解離散值得到最鄰近連續(xù)最優(yōu)解。離散化在迭代過程中能高效的利用奇異值分解和無限制方程進行計算,由此得出的離散解接近全局最優(yōu)。最后把譜聚類算法集成到Weka后,通過一些實例來對其進行測試。
關(guān)鍵詞:數(shù)據(jù)挖掘、機器學(xué)習(xí)、Weka、譜聚類、k-均值。
Abstract
With the continuous development of technology , now the data mining is Gaining popularity, a lot of people use Machine Learning to do the data mining. Many companies have developed data mining tools, for example, for the Business Software, SPSS’s Clementin, SAS’s Enterprise Miner, Matlab and so on, the same as Operating System(OS), there is an open source OS Linux, also the open source data mining tools just as Weka, R-Project and so on. And we use Weka to do Secondary Development, add the Spectral Clustering algorithm into Weka, Spectral Clustering algorithm is A very mature clustering algorithm, though it use a lot of matrix to compute, spent a lot of time, its result of cluster is more better than k-means and other clustering algorithm. we first solve a relaxed continuous optimization problem by eigendecomposition. We clarify the role of eigenvectors as a generator of all optimal solutions through orthonormal transforms. We then solve an optimal discretization problem, which seeks a discrete solution closest to the continuous optima. The discretization is efficiently computed in an iterative fashion using singular value decomposition and nonmaximum suppression. The resulting discrete solutions are nearly global optimal. Finally, spectral clustering algorithm is integrated into Weka, and through some examples of its testing.
Keywords: data mining, machine learning, weka, spectral clustering, k-means.