Thursday, May 25, 2017

AI從頭學():Log-Likelihood

AI從頭學():Log-Likelihood

2017/05/25

施工中...


-----

[3]

最近又回頭看 GAN 了。公式一的定義可以從 Goodfellow 書前面統計的章節查到。另外,有關 log-likelihood,先抄一下 wiki,再仔細看一下這篇文章!

For many applications, the natural logarithm of the likelihood function, called the log-likelihood, is more 「convenient」 to work with.

「Because the logarithm is a monotonically increasing function, the logarithm of a function achieves its maximum value at the same points as the function itself」.

-----

David Tung:剛看完該書第六章,第六章也仔細說明 log-likelihood 比較方便的幾個地方, 1. negative log-likelihood 可以直接當 cost function 2. 當 sigmoid 用作output unit 時 log-likelihood 會產生 softplus 的 cost function,數值運算和微分後的特性都比較好(如相對 mean squared error)。3. 當 sigmoid 或 softmax 用作output unit 時 cross-entropy (也有log程式,但不知可否可由log-likelihood推導而得) 當cost function,微分後的特性比較好。4. 當我們假設Gaussian model (model 輸出和預期值的誤差) 時, minimum negative log-likelihood 就等於 minimum mean squared error。 

郭宗賢:cross-entropy (也有log程式,但不知可否可由log-likelihood推導而得) 可以. 應該有推導。。 

David Tung:可以指出參考文獻嗎? 比如以principle of maximum likelihood如何推出等同cross-entropy為cost function? 

郭宗賢:chapter 3.3+chapter 5.5 ...(你知道的, 這本書的證明推導的非常簡略)... 讚 · 回覆 · 2 · 5月23日 0:53 David Tung David Tung Chapter 5.5 是在推導我的疑問,謝謝。請問你們前面五章分兩次進行的, 有無錄影? 

郭宗賢:有, 但是, 第一次錄影, 好像品質比較差些..(聲音比較小)..將就看..

https://www.youtube.com/watch?v=DeXH5IMHfcs

-----

References

[1] Likelihood function - Wikipedia
https://en.wikipedia.org/wiki/Likelihood_function

[2] 1.4 - Likelihood & LogLikelihood _ STAT 504
https://onlinecourses.science.psu.edu/stat504/node/27

[3]
https://www.facebook.com/groups/Taiwan.AI.Group/permalink/1836886919967074/

AI從頭學():Kullback–Leibler divergence

AI從頭學():Kullback–Leibler divergence

2017/05/25

施工中...

-----

Kullback–Leibler divergence [1] 與 Jensen–Shannon divergence [2] 是 GAN 的基礎 [3], [4]。Wasserstein GAN 則是 GAN 在理論與實作的改良 [5]-[7]。到底 Wasserstein GAN 有多精彩,在 [8] 有詳細的中文說明。

關於 Kullback–Leibler divergence,我搜尋了網路上的資料 [9],並貼在 FB 的社團裡,引來一些精彩的討論 [11]

-----

[11]

Wasserstein GAN,我想才是真正的 GAN。GAN 的概念不難,理論很難。Kullback–Leibler divergence 應該算是第一道門檻,先過再說吧(講給自己聽)! ----- 我們感興趣的是熵和交叉熵的差,我們把這個差異叫做KL散度(Kullback–Leibler divergence),所以 對 的KL散度定義為: 關於KL散度需要知道的是 ...

-----

討論一

David Tung: 離散版的KL-divergence, D(p||q) = \sum p log(p/q) KL-divergence 可以從消息理論的觀點了解,但首先你要知道 divergence 和 distance (metric) 不一樣

distance (metric) 有三個特性
1. self-reflexive: d(x,y) = 0, iff, x = y
2. symmetry: d(x,y) = d(y,x)
3. triangularity: d(x,z) <= d(x,y)+d(y,z)

D(p||q) 的 2, 3 特性都fail, 所以是 divergence. 你也許會問這樣 D(p||q) 有什麼用? 但是他卻是機率和消息理論很關鍵的運算。

D(p||q)>=0, 且只有p=q 時 D(p||q)=0,是它最重要的特性,這可以很簡單從Jensen's inequality證明。所以它是某種機率分佈間差異的指標。它和消息理論的相容性很好。 比如 cross-entropy, C(p, q) = -\sum p log(q) 也可以由 KL-divergence 了解:

C(p, q) = -\sum p log(q) = -\sum p log(p) + \sum p log(p/q)=H(p)+D(p||q), 其中 H(p) = -\sum p log(p) 是 p分佈的entropy. 這樣我們可以很簡單的解釋為什麼 C(p, q)是 cost function, 因為給定分佈 p, C(p, q)= H(p)+D(p||q)>=H(p), 且只有p=q時C(p, q)是最小值。

我們還可以了解更多, Deep learning 第六章說如果 cross-entropy用來學習分佈, 也就是 H(p) 是變動的, 我們要加 p 的regulation, 否則 training 會一直下降 H(p), 而不是讓 q 逼近 p。這在消息理論的關係式下很明顯。

Wasserstein distance 明顯符合 metric 特性 1,2 但是 3 可能不好證明(但既然被稱為distance, 3一定是成立的), 且和消息理論完全不相容。

郭宗賢:很精彩的推論, 麻煩也多描述一下 H(P) 

David Tung:離散H(p) >= 0 很明顯, 因為 pj <= 1,log pj <= 0. 但連續的H(p)可能小於0, 比如 uniform(0, 0.1), p 的值在(0,0.1)下等於10, log 10 > 0, 所以 H(p) < 0。 

郭宗賢:感謝, 這了解,。。不過, 主要是想請教 H(p) 的直觀意義... 

David Tung:喔,H(p) 的直觀意義的瞭解,就是用"最少可以用多少位元(bits)去表示這個機率分佈"為了理解這個觀念,先用離散分佈和以二為基底的log 去思考(不同基底的log所產生的entropy會產生一個不一樣的差異,但是同樣log之間的大部份(所有?) 關係不變。)

假設一個銅板,正反面各二分之一機率,H(p)=1, 也就是一位元去代表它,很明顯可以用1代表正面0代表反面(或相反)。就像entropy所預期的,一位元。沒有更有效率的表示方法。

一個100%單一事件的機率(已經是確定也可說非機率)H(p)=0。大家都知道的事,就沒有information了。

其他更複雜的分佈 entropy 也有同樣的意義。聽說過Huffman coding 嗎,Huffman coding 需要的位元數就是entropy(或為了避開無限問題比entropy大一些。)。

一開始消息理論的消息觀念和一般人理解的不太一樣(好像完全相反)所以直觀有時候就能走這麼遠,直正要理解消息理論還是要看一下標準教科書的數學推導。 順便提一下林宏毅教授的教學方式,林教授有很多訴諸直觀的解釋,這對第一次學習的人很好,很快捉住大綱,但是有時直覺就只能走這麼遠。沒有養成瞭解背後原理的習慣,有時候就只能到此止步,有空再說。

-----

討論二

郭宗賢:針對 GAN training 的問題, 除了W-GAN, 還有LS GAN (Least square GAN), 還有今年初Open-AI 的W-GAN Improved (W-GAN 需要 weight clipping, .) 

David Tung:我知道還有很多divergence,可能有也會有很多distance (現在或未來)。但是以WGAN 為例,improved WGAN只是variation, 要知道原理當然要去看前面的paper(甚至更早的研究). 我前面的引用是要強調該論文的範例1, 用一個很生動的角度去看幾種divergencec和W-distance的不同,了解這個不同,你自己也可以創造不同的divergence或distance. 

David Tung:我在adaptive filter的經驗,這種大量的generalizations, variations, fast algorithms, fast convergences, 大部分是沒有太大意義的, 時尚一過就不見了。最後真正有被使用的就是LMS algorithm 一個。即時一開始真的忽略一個重要改善,只要基礎清楚,這都是overnight 可以pickup 的。XDDD, 說的有點澎風。

-----

討論三:

David Tung:Wasserstein distance 似乎只有在這個學習完全一樣的分佈的問題,才有意義。

比如一個uniform分佈,旁邊有一個奇型怪狀的分佈,我們可以算出它和uniform分佈的W距離,假設為d。我們可以再找另一個同樣的uniform分佈,讓它的mean離開原uniform分佈的mean d 距離,這樣兩個uniform分佈的W距離也是d。

我們這時候説原uniform分佈和奇型分佈的"距離"和兩個uniform分佈的"距離"一様。很多時候這種一樣是沒有意義的。剛好兩個分佈要收斂成同一分佈,這才有意義。

-----

References

[1] Kullback–Leibler divergence - Wikipedia
https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence

[2] Jensen–Shannon divergence - Wikipedia
https://en.wikipedia.org/wiki/Jensen%E2%80%93Shannon_divergence

[3] 2014_Generative adversarial nets

[4] 2016_NIPS 2016 Tutorial, Generative Adversarial Networks

[5] 2017_Towards principled methods for training generative adversarial networks

[6] 2017_Wasserstein GAN

[7] 2017_ Improved training of Wasserstein GANs

[8] 令人拍案叫绝的Wasserstein GAN - 知乎专栏
https://zhuanlan.zhihu.com/p/25071913

[9] 聊不來,聊的來 -初探資訊理論 « CK's Blog
http://kuanchen-blog.logdown.com/posts/333763

[10] Visual Information Theory -- colah's blog
http://colah.github.io/posts/2015-09-Visual-Information/

[11] https://www.facebook.com/groups/Taiwan.AI.Group/permalink/1837933429862423/

Wednesday, May 24, 2017

跑步(七四):10圈

跑步(七四):10圈

2017/05/24

跑(4+5*2)。

-----

本來要朝15圈邁進,臨時改成10圈,忽然覺得很輕鬆。

AI從頭學(目錄)

AI從頭學(目錄)

2016/12/08

LeNet實作團(目錄) 

DRL實作團(目錄)



AI從頭學(一):文獻回顧

AI從頭學(二):Popular Deep Learning Software Tools

AI從頭學(三):Popular Deep Learning Hardware Tools

AI從頭學(四):AD and LeNet

AI從頭學(五):AD and Python

AI從頭學(六):The Net

AI從頭學(七):AD and Python from Jason

AI從頭學(八):The Net from Mark

AI從頭學(九):Back Propagation

AI從頭學(一0):Automatic Differentiation

AI從頭學(一一):A Glance at Deep Learning

AI從頭學(一二):LeNet

AI從頭學(一三):LeNet - F6

AI從頭學(一四):Recommender

AI從頭學(一五):Deep Learning,How?

AI從頭學(一六):Deep Learning,What?

AI從頭學(一七):Shallow Learning 

AI從頭學(一八):Convolutional Neural Network

AI從頭學(一九):Recurrent Neural Network

AI從頭學(二0):Deep Learning,Hot 

AI從頭學(二一):A Glance at Deep Reinforcement Learning 

AI從頭學(二二):Azure Machine Learning - Clustering

AI從頭學(二三):CNN - Filter / Kernel Training

AI從頭學(二四):CNN - Filter / Kernel Visualizing

AI從頭學(二五):Kernel Visualizing

AI從頭學(二六):Aja Huang

-----

FB社團:台灣「人工智慧」社團

FB社團:AI 

AI從頭學(二六):Aja Huang

AI從頭學(二六):Aja Huang

2017/05/24

以四勝一負在2016年擊敗李世乭的 AlphaGo [1],在2017/5/23,再度以1/4目之差,小勝持黑的柯潔 [2]。AlphaGo 背後的靈魂人物,說是 Aja Huang 也不為過 [1]。

-----


Fig. 1. 黃士傑與AlphaGo對弈李世乭 [1]。



Fig. 2. 第 24 手「大飛」,第 54 手「斷」[2].

-----

Aja Huang 是台灣台師大資工博士,碩士班跟博士班的題目都是圍棋 [1]。看完與柯潔的對奕之後,我特地找了他的博士論文來看 [3],參考文獻裡看似只有一篇跟深度學習有關 [4],其餘多屬強化學習的 MCTS [3]。

不過這篇 backpropagation [4] 並非我們熟悉的 BP 演算法 [5]。回過頭來再看 2016 年 DeepMind 發表的論文 [6],在 Huang 專門的 MCTS 之上,導入近年來最熱的深度學習 [7],Policy Network、Value Network、MCTS 三缺一不可,才是致勝的關鍵。

用 CNN 來下圍棋並非 DeepMind 首創 [8],早在1996年,即有學者提出用類神經網路下圍棋的概念 [9]。

[6]、[7]、[8]、[10] 一路追下去,[10] 這篇應該可以算是 AlphaGo alpha 版,裡面 CNN、TD、MCTS 都有。還不到十年,棋王就已不敵...

-----

References

[1] 創造AlphaGo的台灣「土博士」,他們眼中的黃士傑 _ 端傳媒 Initium Media
https://theinitium.com/article/20170116-taiwan-AlphaGo/

[2] 柯潔為何說「輸得沒脾氣」?8 個問題解讀人機大戰第一局 - INSIDE 硬塞的網路趨勢觀察
https://www.inside.com.tw/2017/05/23/analyzing-alphago-versus-ke-jie-round-1

[3] 應用於電腦圍棋之蒙地卡羅樹搜尋法的新啟發式演算法 SC Huang - 臺灣師範大學資訊工程研究所學位論文, 2011

[4] 2009_Backpropagation modification in Monte-Carlo game tree search

[5] AI從頭學(九):Back Propagation
http://hemingwang.blogspot.tw/2017/02/aiback-propagation.html

[6] 2016_Mastering the game of Go with deep neural networks and tree search

[7] 2015_Move evaluation in Go using deep convolutional neural networks

[8] 2014_Teaching deep convolutional neural networks to play Go

[9] 1996_The integration of a priori knowledge into a Go playing neural network

[10] 2008_Mimicking go experts with convolutional neural networks

Tuesday, May 23, 2017

AI從頭學():A Glance at Reinforcement Learning

AI從頭學():A Glance at Reinforcement Learning

2017/04/12

前言:

施工中...

-----

Summary:

Reinforcement Learning (RL) [1]-[6] (參考圖1)的基礎是 Markov Decision Process (MDP) [7] (參考圖2.1a)以及 Bellman equation [1]。在應用上可以分成三種:Critic Only、Action Only、以及 Action-Critic [1]。其中 Critic Only 的 Q-Learning [8], [9] 以及 Actor-Critic 的 policy gradient methods [10]-[13] 是裡面比較重要的。

近年來由於跟 Deep Learning (DL) 整合成 Deep Reinforcement Learning (DRL),在應用上更加靈活 [14]-[16]。 除了跟 Q-Learning 與 Actor-Critic 整合成 DQN [17]、A3C [18]、UNREAL [19] 之外,還有 Recurrent reinforcement learning [20]、Reinforcement Learning Neural Turing Machines [21]、PGQ, Combining policy gradient and Q-learning [22] 等種種新奇的組合。



Fig. 1. Reinforcement learning.

-----

Outline:

本文的講解以 [1] 為主,章節上分為

1. Markov Decision Process (MDP)
2. Bellman Equation
3. Q-Learning
4. Actor-Critic
5. DRL

介紹基本的概念。

-----

1.  Markov Decision Process (MDP)

參考圖2.1a,MDP的組成有五,另外要先提 agent,最後有 expected discounted return。以自問自答的方式進行。

Q1:Agent
Q2:States
Q3:Action
Q4:Reward
Q5:Transition Function
Q6:Policy
Q7:Expected discounted return





Fig. 2.1a. Markov decision process, p. 513 [4].

-----

Q1:Agent

A1:Agent,可以想成一個人,一隻狗,或者是一組電腦程式,跟環境之間的互動,參考圖2.1b跟2.1c。

-----

Q2:States

A2:State,中文是狀態。如果以 game 來說,可能是游標的位置。如果以機器人來說,可能是機器手臂的角度,等等。總之,就是一個狀態。狀態大體上會伴隨著時間,所以,就是 s0, s1, s2, 等等,參考圖2.1c與2.1h。

-----

Q3:Action

A3:Action,中文是行動,或者動作。還是以 game 為例,譬如,上下左右,或者再加發射,可以參考圖2.1h。

-----

Q4:Reward

A4:Reword,可以翻譯成獎勵,這個值,一般就是一個實數。如果是負值,就是 punishment,變成懲罰了。參考圖2.1h。

-----

Q5:Transition Function

A5:這個比較複雜一點,定義寫出來,就比較清楚,參考圖2.1f。我們可以看到,transition function 是一個狀態,執行一個動作,變成另一個狀態。這個函數會得到一個值,介於0與1之間,是一個機率值。它不是選擇這個動作的機率,而是執行動作成功得到 reward 的機率,參考圖2.1d與2.1e。

-----

Q6:Policy

A6:Policy,是在一個狀態下,選擇某個動作,參考圖2.1g。

-----

Q7:Expected discounted return

A7:我們可以看到,這是一串 rewards,隨著時間遞減,然後再加總。遞減是合理的,今天給你一百塊錢,明天也給你一百塊,哪個感覺,或者真正的效用,對現在的你比較高,當然是今天的一百塊囉! 參考圖2.1i。

-----


Fig. 2.1b. The agent-environment interaction, p. 47 [5].



Fig. 2.1c. SARS, p. 524 [4].



Fig. 2.1d. Transition function, p. 2 [1].



Fig. 2.1e. Probability of s a s’ [7].



Fig. 2.1f. Markov decision process, p. 12 [6].



Fig. 2.1g. Policy, p. 2 [1].



Fig. 2.1h. Markov decision process (Q-Learning) [9].



Fig. 2.1i. Expected discounted return, p. 71 [5].

-----

2. Bellman Equation

這應該算是等式,還是定義呢?

首先看到圖2.2a,以及2.1i。



-----


Fig. 2.2a. Bellman equation, p. 2 [1].



Fig. 2.2b. Bellman equation, p. 81 [5].



Fig. 2.2c. Generalized policy iteration (GPI), p. 19 [6].



Fig. 2.2d. V*, p. 527 [4].



Fig. 2.2e. π* (greedy), p. 16 [6].



Fig. 2.2f. Generalized policy iteration (GPI), p. 12 [2].



Fig. 2.2g. Generalized policy iteration (GPI), p. 13 [2].



Fig. 2.3a. Value iteration [7].



Fig. 2.3b. Policy iteration [7].



Fig. 3.1a. TD=MCM+DP, p. 535 [4].



Fig. 3.1b. Q-learning, p. 4 [1].



Fig. 3.1c. Q-learning, p. 140 [5].



Fig. 3.1d. Q-learning, p. 140 [5].



Fig. 3.1e. Q-learning, p. 537 [4].



Fig. 3.1f. Q-learning, p. 31 [6].



Fig. 3.1g, Learning rate [9].



Fig. 4.1a. Actor-Critic [16].



Fig. 4.1b. Actor-Critic, p. 538 [4].



Fig. 4.1c. Actor-Critic, p. 7 [1].



Fig. 5.1a. DQN: the optimal action-value function, p. 1 [17].



Fig. 5.1b. DQN: loss function, p. 1 [17].



Fig. 5.1c. DQN [16].



Fig. 5.2a. OSQ, p. 2 [18].



Fig. 5.2b. AOSQ, p. 3 [18].



Fig. 5.2c. A3C, p. 4 [18].



Fig. 5.3a. UNREAL, p. 2 [19].



Fig. 5.3b. UNREAL, p. 6 [19].



Fig. 5.3c. A3C: Loss function, p. 3 [19].



Fig. 5.3d. VR: Loss function, p. 3 [19].



Fig. 5.3e. PAI: Loss function, p. 3 [19].



Fig. 5.3f. QC: Loss function, p. 4 [19].



Fig. 5.3g. UNREAL: auxiliary tasks, p. 4 [19].



Fig. 5.3h. Gradient of PAI, p. 3 [19].



-----

References

◎ 1 1 RL Paper

[1] Heidrich-Meisner, Verena, et al. "Reinforcement learning in a nutshell." ESANN. 2007.
[2] Kaelbling, Leslie Pack, Michael L. Littman, and Andrew W. Moore. "Reinforcement learning: A survey." Journal of artificial intelligence research 4 (1996): 237-285.

[3] Kober, Jens, J. Andrew Bagnell, and Jan Peters. "Reinforcement learning in robotics: A survey." The International Journal of Robotics Research 32.11 (2013): 1238-1274.

◎ 1 2 RL Book

[4] Gollapudi, Sunila . Practical machine learning. Packt Publishing, 2016.
https://ebooks-it.org/178439968x-ebook.htm

[5] Sutton, Richard S., and Andrew G. Barto. Reinforcement learning: An introduction. (2016): 424.
http://incompleteideas.net/sutton/book/bookdraft2016sep.pdf

[6] Gollapudi, Sunila . Reinforcement learning : State-of-the-Art. Springer, 2012.
https://ebooks-it.org/178439968x-ebook.htm

◎ 2 MDP

[7] 机器学习 cs229学习笔记6(增强学习 reinforcement learning,MDP) - 深度学习知识库
http://lib.csdn.net/article/deeplearning/54747

◎ 3 Critic Q-Learning

[8] Watkins, Christopher JCH, and Peter Dayan. "Q-learning." Machine learning 8.3-4 (1992): 279-292.

[9] Artificial Intelligence - foundations of computational agents -- 11_3_3 Q-learning
http://artint.info/html/ArtInt_265.html

◎ 4 Actor-Critic PGM

[10] Sutton, Richard S., et al. "Policy gradient methods for reinforcement learning with function approximation." NIPS. Vol. 99. 1999.

[11] Kakade, Sham. "A natural policy gradient." Advances in neural information processing systems 2 (2002): 1531-1538.

[12] Kohl, Nate, and Peter Stone. "Policy gradient reinforcement learning for fast quadrupedal locomotion." Robotics and Automation, 2004. Proceedings. ICRA'04. 2004 IEEE International Conference on. Vol. 3. IEEE, 2004.

[13] Peters, Jan, and Stefan Schaal. "Policy gradient methods for robotics." Intelligent Robots and Systems, 2006 IEEE/RSJ International Conference on. IEEE, 2006.

◎ 5 DRL

[14] Li, Yuxi. "Deep reinforcement learning: An overview." arXiv preprint arXiv:1701.07274 (2017).

[15] Krakovsky, Marina. "Reinforcement renaissance." Communications of the ACM 59.8 (2016): 12-14.

[16] 深度增強學習前沿算法思想 - 歌穀穀
http://www.gegugu.com/2017/02/17/1360.html

[17] Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529-533.

[18] Mnih, Volodymyr, et al. "Asynchronous methods for deep reinforcement learning." International Conference on Machine Learning. 2016.

[19] Jaderberg, Max, et al. "Reinforcement learning with unsupervised auxiliary tasks." arXiv preprint arXiv:1611.05397 (2016).

[20] Li, Xiujun, et al. "Recurrent reinforcement learning: a hybrid approach." arXiv preprint arXiv:1509.03044 (2015).

[21] O'Donoghue, Brendan, et al. "PGQ: Combining policy gradient and Q-learning." arXiv preprint arXiv:1611.01626 (2016).

[22] Zaremba, Wojciech, and Ilya Sutskever. "Reinforcement Learning Neural Turing Machines-Revised." arXiv preprint arXiv:1505.00521 (2015).

AI從頭學():Generative Adversarial Nets

AI從頭學():Generative Adversarial Nets

2017/05/23

前言:

施工中...

Summary:

Generative Adversarial Nets (GAN) [1] 自2014年推出以來,引 AI 界起很大的熱潮。GAN 的概念,是由 generative net (GN) 跟 discriminative net (DN) 相互對抗,最後 DN 不再能分辨 GN 生成的圖片是真是假,GN 就成功了(能產生以假亂真的圖片)。Adversarial 的觀念是新的,而 generative 跟 discriminative 的觀念則已超過十年 [2]。

有關 GAN 的簡單介紹,可以參考 [3], [4],較深入的討論,則可參考 [5]-[10]。[11], [12] 則有視覺化的訓練可以參考。

Log likelihood 是學習 GAN 的基礎 [13]-[16]。另外我們可以參考其他的論文來瞭解 GN [17]-[22]。最後則提供徹底掌握 GAN 所需的資料 [23]-[26]。

其實,以上資料並不足以徹底掌握 GAN。Wasserstein GAN [27]-[31] 才是完備的 GAN。而 Kullback–Leibler divergence [32] 與 Jensen–Shannon divergence [33] 算是基礎。

-----

Outline:

1. Formula
2. Generative Net
3. Deep Generative Models

本文重點有三:

1. GAN 公式
2. 生成網路構造
3. 瞭解 GAN 所需之相關資料

-----


Fig. 1.1a. Backpropagate derivatives through generative processes, p. 2 [1].



Fig. 1.1b. Random variable and probability distribution, p. 57 [23].



Fig. 1.1c. Expectation, p. 60 [23].



Fig. 1.1d. Normal distribution, also known as the Gaussian distribution, p. 63 [23].

-----


Fig. 1.2a. D and G play the following two-player minimax game with value function V (G;D), p. 3 [1].



Fig. 1.2b. The model can then be trained by maximizing the log likelihood, p. 2 [1].



Fig. 1.2c. Decomposition into the positive phase and negative phase of learning, p. 608 [23].




Fig. 1.3. Generative adversarial nets are trained by simultaneously updating the discriminative distribution, p. 4 [1].



Fig. 1.4. Minibatch stochastic gradient descent training of generative adversarial nets, p.4 [1].



Fig. 2.1a. DCGAN generator used for LSUN scene modeling, p. 4 [17].



Fig. 2.1b. A 100 dimensional uniform distribution Z, p. 4 [17].



Fig. 2.2. The architecture of the generator in Style-GAN, p. 324 [18].



Fig. 2.3. Text-conditional convolutional GAN architecture, p. 4 [19].



Fig. 2.4. A deconvnet layer (left) attached to a convnet layer (right), p. 822 [20].



Fig. 3.1. Deep generative models, p. vi [23].



Fig. 3.2. Deep learning taxonomy, p. 492 [24].



Fig. 3.3. Chapters 16-19, p. 671 [23].



Fig. 3.4. From section 3.14 to chapter 16, p. 560 [23].



Fig. 4.1. Fully-observed models [6].



Fig. 4.2. Transformation models [6].



Fig. 4.3. Latent bariable models [6].



Fig. 5.1. Probabilistic modeling of natural images, p. 563 [23], p. 8 [26].



Fig. 5.2. An illustration of the slow mixing problem in deep probabilistic models, p. 604 [23].



Fig. 5.3. Positive phase and negative phase, p. 611 [23].



Fig. 5.4. The KL divergence is asymmetric, p. 76 [23].



-----

References

1 GAN

[1] 2014_Generative adversarial nets

[2] 2007_Generative or discriminative, getting the best of both worlds

-----

2 GAN Internet

[3] 生成对抗式网络(Generative Adversarial Networks) – LHY's World
http://closure11.com/%E7%94%9F%E6%88%90%E5%AF%B9%E6%8A%97%E5%BC%8F%E7%BD%91%E7%BB%9Cgenerative-adversarial-networks/

[4] 能根據文字生成圖片的GAN,深度學習領域的又一新星 GigCasa 激趣網
http://www.gigcasa.com/articles/465963

[5] 深度学习与生成式模型 - Solomon1558的专栏 - 博客频道 - CSDN.NET
http://blog.csdn.net/solomon1558/article/details/52512459

[6] 生成式对抗网络GAN研究进展(一) - Solomon1558的专栏 - 博客频道 - CSDN.NET
http://blog.csdn.net/solomon1558/article/details/52537114

[7] 生成式对抗网络GAN研究进展(二)——原始GAN - Solomon1558的专栏 - 博客频道 - CSDN.NET
http://blog.csdn.net/solomon1558/article/details/52549409

[8] 生成式对抗网络GAN研究进展(三)——条件GAN - Solomon1558的专栏 - 博客频道 - CSDN.NET
http://blog.csdn.net/solomon1558/article/details/52555083

[9] 生成式对抗网络GAN研究进展(四)——Laplacian Pyramid of Adversarial Networks,LAPGAN - Solomon1558的专栏 - 博客频道 - CSDN.NET
http://blog.csdn.net/solomon1558/article/details/52562851

[10] 生成式对抗网络GAN研究进展(五)——Deep Convolutional Generative Adversarial Nerworks,DCGAN - Solomon1558的专栏 - 博客频道 - CSDN.NET
http://blog.csdn.net/solomon1558/article/details/52573596

[11] An introduction to Generative Adversarial Networks (with code in TensorFlow) – AYLIEN
http://blog.aylien.com/introduction-generative-adversarial-networks-code-tensorflow/

[12] Adverarial Nets
http://cs.stanford.edu/people/karpathy/gan/

-----

3 log likelihood

[13] 2009_Deep Boltzmann machines

[14] Likelihood function - Wikipedia
https://en.wikipedia.org/wiki/Likelihood_function

[15] 1.4 - Likelihood & LogLikelihood _ STAT 504
https://onlinecourses.science.psu.edu/stat504/node/27

[16] Chapter 18 Confronting the Partition Function
http://www.deeplearningbook.org/contents/partition.html

-----

4 Generator

[17] 2016_Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks

[18] 2016_Generative image modeling using style and structure adversarial networks

[19] 2016_Generative adversarial text to image synthesis

[20] 2014_Visualizing and understanding convolutional networks

[21] 2011_Adaptive deconvolutional networks for mid and high level feature learning

[22] 2016_A guide to convolution arithmetic for deep learning

-----

5 Goodfellow

[23] 2016_Deep Learning
https://github.com/HFTrader/DeepLearningBook/raw/master/DeepLearningBook.pdf

[24] 2016_Practical Machine Learning

[25] 2009_Learning multiple layers of features from tiny images

[26] 2011_Unsupervised models of images by spike-and-slab RBMs

-----

6 Goodfellow

[27] 2016_NIPS 2016 Tutorial, Generative Adversarial Networks

-----

7 Wasserstein GAN

[28] 令人拍案叫绝的Wasserstein GAN - 知乎专栏
https://zhuanlan.zhihu.com/p/25071913

[29] 生成式对抗网络GAN有哪些最新的发展,可以实际应用到哪些场景中? - 知乎
https://www.zhihu.com/question/52602529/answer/158727900

[30] 2017_Towards principled methods for training generative adversarial networks

[31] 2017_Wasserstein GAN

[32] 2017_ Improved training of Wasserstein GANs

[33] Kullback–Leibler divergence - Wikipedia
https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence

[34] Jensen–Shannon divergence - Wikipedia
https://en.wikipedia.org/wiki/Jensen%E2%80%93Shannon_divergence