[MLE推导出KL] 李宏毅网课，提问 - 人工智能吧

level 4

笑而不语的谁楼主

问题如下，在讲GAN推导的时候，李老师将MLE推导成KL公式，我不太理解导数第二行的约等于的那一步，应该怎么简单理解呢，希望大家可以帮助我理解一下，谢谢。

2021年08月02日 03点08分 1

level 12

胡梦柯5

那个不是导数，之前是求似然的和，但外面最终是找参数能使似然和最大的那些参数，之后是找似然期望值最大的参数，不谈参数的话，一个与另一个差异是N倍，但不是找这两，而是找使这两最大的参数，所以近似相等一致。

2021年08月02日 06点08分 2

胡梦柯5

估计楼主说的是倒数，不是导数

2021年08月02日 06点08分

胡梦柯5

加没加arg是有区别的，没加arg是求最大值，加了arg是求能使最大值得出的参数，这里加了的，所以是求参数。等式初就标出了theat*的了。

2021年08月02日 07点08分

笑而不语的谁

@胡梦柯5 您好，我后来看了下，我的疑惑应该是它为什么用约等于号啊

2021年08月02日 07点08分

胡梦柯5

理想期望值与样本值的和有差异的，例如理想期望值是积分结果，因而arg之后可以认为比较接近（逼近），所以可以用约等于，他式子里用的明显是连续区域积分所得期望，所以写近似等于是正常的。

2021年08月02日 09点08分

level 1

见招拆招z

MLE是最大似然参数估计，KL散度是相对熵。
公式最后三行，去掉arg max θ，分别是：相对熵离散版、相对熵通用版、相对熵连续版的公式。
约等于的意思是：当样本数据无限多时，离散版(求和)约等于连续版(积分)，这是微积分的基本思想。
相对熵的概念可详细看相关教程。
arg max θ 的意思是：使公式(函数)达到最大的拟合度(相似度)时，参数θ的值，求arg max θ即自动调参。
也就是说，如果求出了参数θ的值，那么公式求出的数值将最大程度的接近测量的样本值，即理论数据将最大程度接近现实数据，这是最大似然的基本思想，或者说是“拟合”的基本思想。最大似然时，误差最小。
相对熵是从信息论角度描述拟合的，虽然角度不同，但实质和最大似然是等价的。熵代表不确定性或混乱程度，熵越大不确定性就越大，熵越小(相对熵是KL散度小)代表确定性高，确定性高则似然度高、拟合准确。

2021年08月02日 08点08分 3

level 4

笑而不语的谁楼主

再请问一下，这里的objective function写成这样的形式，里面的D(x)前用一个log函数，这个log函数是不是单纯为了方便运算才加上去的，就像计算MLE的时候一样？

2021年08月02日 08点08分 4

胡梦柯5

求对数一是转换乘法为加法，一是不易溢出，但是，也有不取对数避免对数化导致类似sigmoid收敛困难的算法，是一种改进的变通算法。

2021年08月02日 13点08分

胡梦柯5

再有，相对熵的计算推理过程，引入2为底的log进而变成e为底就成了顺着推理公式变化的自然结果，所以log的出现很正常，就象似然对数出现也会加入log。

2021年08月02日 13点08分

胡梦柯5

相对熵在信息论书籍中一般有解释，实际就是kl散度，是交叉熵减信息熵的结果。

2021年08月02日 13点08分

胡梦柯5

你最前面的最大似然推导出等效最小化kl散度的过程部分，其实是没写的，应当在别处。

2021年08月02日 13点08分