level 1
👀不穿的可达鸭
楼主
4090 16384 128sm 512tensor core 330.3tflops 2.52ghz
5090 21760 170sm 680tensor core 419tflops 2.42ghz
一个tensor core 每一个时钟执行256次flops fp16张量计算
4090
fp16 330.3TFlops 稀疏矩阵 660.6TFlops
Int8 660.6TFlops 稀疏矩阵 1321.2TFlops
Int4 1321.2TFlops 稀疏矩阵 2642.4TFlops 官网非稀疏矩阵
4090d 1177t int4
5090
fp16 419TFlops 稀疏矩阵 838TFlops
Int8 838TFlops 稀疏矩阵 1676TFlops
Int4/fp4 1676TFlops 稀疏矩阵 3352TFlops 官网采用稀疏矩阵
5090d 2375t是fp4稀疏算力,判断4800tpp禁售线需要降到正常fp4算力
419t比330t提升幅度:26.86%
4090对比3090ti倒是提升了100%
比较庆幸的是,50系每个光追单元的执行能力比40系提升31.25%
20系 386 flops
30系 500 flops
40系 592 flops
50系 777 flops





2025年01月19日 01点01分
1
5090 21760 170sm 680tensor core 419tflops 2.42ghz
一个tensor core 每一个时钟执行256次flops fp16张量计算
4090
fp16 330.3TFlops 稀疏矩阵 660.6TFlops
Int8 660.6TFlops 稀疏矩阵 1321.2TFlops
Int4 1321.2TFlops 稀疏矩阵 2642.4TFlops 官网非稀疏矩阵
4090d 1177t int4
5090
fp16 419TFlops 稀疏矩阵 838TFlops
Int8 838TFlops 稀疏矩阵 1676TFlops
Int4/fp4 1676TFlops 稀疏矩阵 3352TFlops 官网采用稀疏矩阵
5090d 2375t是fp4稀疏算力,判断4800tpp禁售线需要降到正常fp4算力
419t比330t提升幅度:26.86%
4090对比3090ti倒是提升了100%
比较庆幸的是,50系每个光追单元的执行能力比40系提升31.25%
20系 386 flops
30系 500 flops
40系 592 flops
50系 777 flops





