[MLE推导出KL] 李宏毅网课,提问
人工智能吧
全部回复
仅看楼主
level 4
问题如下,在讲GAN推导的时候,李老师将MLE推导成KL公式,我不太理解导数第二行的约等于的那一步,应该怎么简单理解呢,希望大家可以帮助我理解一下,谢谢。
2021年08月02日 03点08分 1
level 12
那个不是导数,之前是求似然的和,但外面最终是找参数能使似然和最大的那些参数,之后是找似然期望值最大的参数,不谈参数的话,一个与另一个差异是N倍,但不是找这两,而是找使这两最大的参数,所以近似相等一致。
2021年08月02日 06点08分 2
估计楼主说的是倒数,不是导数
2021年08月02日 06点08分
加没加arg是有区别的,没加arg是求最大值,加了arg是求能使最大值得出的参数,这里加了的,所以是求参数。等式初就标出了theat*的了。
2021年08月02日 07点08分
@胡梦柯5 您好,我后来看了下,我的疑惑应该是它为什么用约等于号啊
2021年08月02日 07点08分
理想期望值与样本值的和有差异的,例如理想期望值是积分结果,因而arg之后可以认为比较接近(逼近),所以可以用约等于,他式子里用的明显是连续区域积分所得期望,所以写近似等于是正常的。
2021年08月02日 09点08分
level 1
MLE是最大似然参数估计,KL散度是相对熵。
公式最后三行,去掉arg max θ,分别是:相对熵离散版、相对熵通用版、相对熵连续版的公式。
约等于的意思是:当样本数据无限多时,离散版(求和)约等于连续版(积分),这是微积分的基本思想。
相对熵的概念可详细看相关教程。
arg max θ 的意思是:使公式(函数)达到最大的拟合度(相似度)时,参数θ的值,求arg max θ即自动调参。
也就是说,如果求出了参数θ的值,那么公式求出的数值将最大程度的接近测量的样本值,即理论数据将最大程度接近现实数据,这是最大似然的基本思想,或者说是“拟合”的基本思想。最大似然时,误差最小。
相对熵是从信息论角度描述拟合的,虽然角度不同,但实质和最大似然是等价的。熵代表不确定性或混乱程度,熵越大不确定性就越大,熵越小(相对熵是KL散度小)代表确定性高,确定性高则似然度高、拟合准确。
2021年08月02日 08点08分 3
level 4
再请问一下,这里的objective function写成这样的形式,里面的D(x)前用一个log函数,这个log函数是不是单纯为了方便运算才加上去的,就像计算MLE的时候一样?
2021年08月02日 08点08分 4
求对数一是转换乘法为加法,一是不易溢出,但是,也有不取对数避免对数化导致类似sigmoid收敛困难的算法,是一种改进的变通算法。
2021年08月02日 13点08分
再有,相对熵的计算推理过程,引入2为底的log进而变成e为底就成了顺着推理公式变化的自然结果,所以log的出现很正常,就象似然对数出现也会加入log。
2021年08月02日 13点08分
相对熵在信息论书籍中一般有解释,实际就是kl散度,是交叉熵减信息熵的结果。
2021年08月02日 13点08分
你最前面的最大似然推导出等效最小化kl散度的过程部分,其实是没写的,应当在别处。
2021年08月02日 13点08分
1