level 12
masmyc
楼主
自己造轮子真的快吗?
昨天半夜上了 libfttw 的官方网站,其中提到 libfttw 可以使用 SSE2 指令集,在某些硬件环境下有更好的表现。libfttw 自带一个 malloc 也是对内存布局进行优化的。简单点说就是 libfttw 可以用硬件加速。
如果自己造轮子,会把关键部分用 SSE2 指令集的汇编优化一下吗?会考虑到兼容性再写一个通用版吗?
即使这样,能够保证几个版本的程序一致不出错吗?
我也知道 x264 等软件自带 DCT 等关键算法,但那是优化了几年的啊。(比如谷歌的 VP9 编码器,一年前就完成了,现在全在优化算法)
2014年02月06日 01点02分
1
昨天半夜上了 libfttw 的官方网站,其中提到 libfttw 可以使用 SSE2 指令集,在某些硬件环境下有更好的表现。libfttw 自带一个 malloc 也是对内存布局进行优化的。简单点说就是 libfttw 可以用硬件加速。
如果自己造轮子,会把关键部分用 SSE2 指令集的汇编优化一下吗?会考虑到兼容性再写一个通用版吗?
即使这样,能够保证几个版本的程序一致不出错吗?
我也知道 x264 等软件自带 DCT 等关键算法,但那是优化了几年的啊。(比如谷歌的 VP9 编码器,一年前就完成了,现在全在优化算法)