为何信息几何中采用Fisher信息矩阵作为度量
学霸的星辰大海吧
全部回复
仅看楼主
吧务
level 14
信息几何是用微分几何来描述概率分布空间的一门学问. 以正态分布为例,研究的是以其均值m和方差v为变量的空间.如果采取欧式度量,(m1,v1)和(m2,v2)的距离等于(m3,v3)和(m4,v4)间的距离,但是这与实际的情况不符(欧氏度量相等的两对点对应的两组分布之间的“差异”很明显不同),因此Amari提出应该用Fisher information矩阵作为概率分布空间中的度量.
2022年06月29日 15点06分 1
吧务
level 14
2022年06月30日 04点06分 2
吧务
level 14
此外值得注意的是,度量可以理解成一种"局域的”(local)距离,如果要衡量两个概率分布间真正的距离(global distance),则还需要引入一个distance函数,信息几何中,人们一般选取Kullback-Leibler divergence(KL差分). Fisher information度量和联络可以分别直接由KL差分的二阶导数和三阶导数得到. 为什么不选用其他的差分,如alpha差分呢?这是因为KL差分有一个重大的优点:只有选取KL差分为距离函数的时候,推导出来的仿射联络是平直的:存在一组仿射坐标卡使得仿射联络在其坐标点上处处为零!由这样的联络描述的流形称为对偶平直(dually flat)流形.优势在于此时的测地线方程退化为简单的线性方程,这样的流形可以视为欧氏空间的简单扩展,很多性质可以类比欧氏空间.
2022年06月30日 04点06分 3
吧务
level 14
此外还有一个有意思的引申结论:在概率分布的参数空间中用“最陡”梯度下降法搜寻极值点的时候,负梯度方向并非真正“最陡”的方向!要在前面乘上一个Fisher信息矩阵的逆,得到的才是真正的最陡方向.这当然也是由于参数空间中的度量选择的不是欧氏度量.
2022年06月30日 04点06分 4
1