網(wǎng)絡(luò)資源管理系統(tǒng).doc
約46頁DOC格式手機打開展開
網(wǎng)絡(luò)資源管理系統(tǒng),頁數(shù) 46字數(shù) 20885摘要強化學習是近幾十年來迅速發(fā)展起來的一類機器學習算法,并且從1980年以來逐漸成為機器學習研究的一個比較活躍領(lǐng)域,引起了包括計算機科學、控制科學以及心理學領(lǐng)域的學者的極大關(guān)注。 所有的類型機器人或機制設(shè)計自控器對于科學家和工程師是具有很大的挑戰(zhàn)性, 由早期的計算機時代至今。通...
![](http://img.queshao.com/images/pcgzh.gif)
![](http://preview.queshao.com/tobuy/25630.gif)
內(nèi)容介紹
此文檔由會員 猛龍 發(fā)布網(wǎng)絡(luò)資源管理系統(tǒng)
頁數(shù) 46 字數(shù) 20885
摘 要
強化學習是近幾十年來迅速發(fā)展起來的一類機器學習算法,并且從1980年以來逐漸成為機器學習研究的一個比較活躍領(lǐng)域,引起了包括計算機科學、控制科學以及心理學領(lǐng)域的學者的極大關(guān)注。
所有的類型機器人或機制設(shè)計自控器對于科學家和工程師是具有很大的挑戰(zhàn)性, 由早期的計算機時代至今。通過機械控制可以模擬簡單動物的行為,如步行或游泳, 在人工的機械裝置中模擬或仿真在向外延伸上是非常困難的。這個論題是介紹人工神經(jīng)網(wǎng)絡(luò)和增強激發(fā)學習的一些技術(shù)幫助如何解決這樣問題的研究。在許多領(lǐng)域的重要應(yīng)用中找到控制動力系統(tǒng)的最佳的行動是至關(guān)重要的,例如,機器人技術(shù),工業(yè)的加工和處理,或太空船中飛。通過對一些問題的研究使得一些主要的研究成果被應(yīng)用到更高階的理論問題中, 并且提供實際的方法建立有效率的控制器。
最后,對于外部環(huán)境動力學信息已知的強化學習問題,動態(tài)規(guī)劃是解決它的好方法,經(jīng)過分析發(fā)現(xiàn),Dijkstra回溯是算法快速收斂的關(guān)鍵。本文對動態(tài)規(guī)劃算法進行了深入地研究,并在動態(tài)規(guī)劃算法的基礎(chǔ)上進行了改進。
關(guān)鍵詞 神經(jīng)網(wǎng)絡(luò),強化學習,機器學習,動態(tài)規(guī)劃;
目 錄
摘要 …………………………………………………………………………….Ⅰ
Abstract ………………………………………………………………………..Ⅱ
第1章 緒論 ……………………………………………………………………1
1.1 人工智能 ...………………………………………………………………1
1.2 神經(jīng)網(wǎng)絡(luò) .………………………………………………………………..2
1.3 機器學習 ………………………………………………………………...2
1.3.1 機器學習的基本原理 ………………………………………………2
1.3.2 機器學習的發(fā)展 ……………………………………………………4
1.3.3強化學習 …………………………………………………………….5
1.3.3.1 強化學習的現(xiàn)狀及發(fā)展 .……………………………………..5
1.3.3.2 強化學習在神經(jīng)網(wǎng)絡(luò)中的應(yīng)用 ……………………………...7
1.3.4進化計算 …………………………………………………………….7
1.4 本課題的意義及課題來源 .……………………………………………..8
1.5 本課題的主要內(nèi)容 ……………………………………………………...8
第2章 強化學習模型及其主要算法 …………………………………………9
2.1 強化學習模型 .…………………………………………………………..9
2.2 值函數(shù) ………………………………………………………………….10
2.3 強化學習的主要算法 ………………………………………………….11
2.3.1 動態(tài)規(guī)劃 .………………………………………………………….11
2.3.2 蒙特卡羅算法 .…………………………………………………….12
2.4 小結(jié) ……………………………………………………………………13
第3章 動態(tài)規(guī)劃算法 ………………………………………………………14
3.1 動態(tài)規(guī)劃算法提出的背景 .……………………………………………14
3.2 動態(tài)規(guī)劃算法 ………………………………………………………….15
3.2.1 離散問題 …………………………………………………………..15
3.2.1.1 有限的確定的離散狀態(tài)的決策過程 ...……………………..15
3.2.1.2 變量迭代 .……………………………………………………..16
3.2.1.3 策略的評估 .…………………………………………………..18
3.2.1.4 迭代策略 .……………………………………………………..19
3.3 連續(xù)問題 ……………………………………………………………….19
3.3.1 問題的定義 .……………………………………………………….20
3.3.2 問題的離散化 ……………………………………………………..21
3.3.3 收斂性問題 ………………………………………………………..22
3.4 簡單例子 ……………………………………………………………….23
第4章 基于動態(tài)規(guī)劃算法的改進及其應(yīng)用 ………………………………25
4.1 動態(tài)規(guī)劃算法的改進 .…………………………………………………25
4.1.1 算法的描述 ………………………………………………………..26
4.1.2 改進算法的證明
4.2 改進算法與動態(tài)規(guī)劃算法的比較
4.3 例子
結(jié)論
參考文獻
致謝
附錄1
附錄2