心海岛主88 -
异数OS
关注数: 10 粉丝数: 11 发帖数: 2,756 关注贴吧数: 32
服务器nas软路由领域龙芯128核的天花板不是奔4不是j1900而是奔2 一直有人认为服务器领域龙芯16核甚至未来的128核CPU性能是能够媲美J1900这种atom,但实际上是欠缺专业理解的,龙芯20年来一直依赖桥片实现pcie,但其桥片的pcie性能只能达到20万pps,这样的性能和2001年的845pe性能相当,都只能满足百兆网卡性能需要。并且nas服务器和主流服务器有一些不同,入门级nas服务器用户通常有使用usb移动硬盘的习惯,而usb总线属于轮训总线,桥片pcie网卡工作时会导致hub模式的南桥usb饿死,致使移动硬盘在nas环境工作时经常掉线。因此后来intel的入门nas cpu方案都有集成pcie,在买网卡送cpu的nas入门服务器 j1900上可以达到4兆pps的同时usb依然稳定不掉线,这个性能相当于龙芯的20倍,在20元e5v1洋垃圾上更是可以达到40Mpps,相当于龙芯的200倍,因此龙芯应该明白自己的天花板将竞争对手设置为奔四,而不是j1900这类跨越数量级的对手。 以上是之前的理解,但自从龙芯爆出pcie体系结构缺陷后,龙芯不如奔4的认知再次被刷新,通过龙芯对其pcie bug的解释可以发现龙芯可能没有搞定xAPIC规范,以至于无法实现多核分载处理中断并多核提交DMA这一项历史硬件基本能力,xAPIC最初是在双路奔三时期引入,来缓解1998百兆网络体系结构的缺陷,在奔4时期逐渐完善,目前该规范在2012年已演化到x2APCI,目的是让多核CPU可以分载中断,提高设备驱动的并发DMA性能,在服务器平台,他是多队列真千兆网卡(2004年的82574)技术的基础硬件特性保障,以便于实现多CPU负载均衡,协议栈并行加速等特性,是目前万兆十万兆四十万兆网卡实现sr-iov dpdk等技术的基础技术保障之一,显然该技术对服务器领域的影响比桌面领域的影响重要的多,因为真千兆网卡的dma规模通常是显卡vulkan的100倍左右,十万兆网卡的dma需求甚至是显卡的4个数量级,因此不支持xAPIC的CPU理论上是无法发挥真千兆网卡性能的,甚至也无法满足百兆网卡的dma性能需求,通常认为cpu的每核中断性能上限在4万,百兆网卡要做到0丢包则需要4核CPU(这是阿里云腾讯云的百兆高性能服务器通常建议4核以上的原因),但前提是cpu要能支持xAPIC实现多核分载中断,显然龙芯爆出pcie 缓存一致性bug后的解释让人怀疑龙芯这样的cpu是不是能实现百兆网卡0丢包这一高性能服务器基本要求。 再看AMD显卡驱动补丁在龙芯平台的实现可以发现AMD显卡驱动在龙芯平台实现DMA时面临严重的缓存回写一致性问题,这导致在龙芯平台性能和蓝屏要做二选一,DMA缓存回写在现在CPU上是不必要的,只有在奔四以及之前的CPU才存在,只是当时的CPU缓存都很小,所以问题不严重,直到第三代奔四的出现这一问题变得越发严重,这也是当年奔四越进步,游戏越卡顿的真凶,可能游戏上表现不会很直观,但是声卡的问题就很严重了,当时的创新声卡在带有大L3的奔四上出现爆音不连续问题,后期驱动解决方案是加大DMA缓存,但是延迟就倍增了,所以当时出现了第三方的KX 游飘驱动,这个驱动的目的是降低延迟,但问题是经常蓝屏,这一问题显然被龙芯继承了,龙芯的问题是他的L3是奔4的10倍以上,再加上要实现4核DMA并发回写,那么在L3回写规模上就是奔4的40倍,这显然会让L3成为系统的累赘,要知道创新声卡的dma规模大概也就数百,而百兆网卡的dma规模在14万,所以在有比奔4严重40倍的L3回写障碍的龙芯上,百兆网卡是不是能真的0丢包令人怀疑。 所以龙芯这样的cpu服务器或者网络存储领域应该必然会碰到难以逾越的技术大坑。
桌面领域龙芯的天花板不是奔4不是j1900而是奔2? 一直有人认为桌面领域龙芯16核甚至未来的128核CPU性能是能够媲美J1900这种atom,但实际上是欠缺专业理解的,龙芯20年来一直依赖桥片实现pcie,但其桥片的pcie是共享独占的,这导致他的桌面体验和2001年的845pe性能相当甚至更差,在硬盘和显卡IO压力较大时都会导致鼠标键盘卡顿丢失输入,只是龙芯的问题比奔4更严重,原因是奔4时代懂行的玩家会使用PS2的键盘鼠标和windows而不是USB键盘鼠标+linux,PS2+windows的优点是有硬件中断,在DMA过程间隙中可以抢占系统让windows内核界面引擎得到响应,usb键盘鼠标由于没有硬件中断因此鼠标键盘会失去响应,后来intel的j1900 这样的白送cpu方案中都有集成pcie,因此dma过程不会再导致主板usb饿死,所以PS2被淘汰,PS2的淘汰意味着龙芯的桌面体验再也没有希望超越P4,即便龙芯能够集成pcie,也会因为缺乏windows的内核实时中断gui支持而无法超越奔4,因此龙芯应该明白自己的天花板将竞争对手设置为奔4,而不是j1900这类跨越数量级的对手。 以上是之前的理解,但自从龙芯爆出pcie体系结构缺陷后,龙芯不如奔4的认知再次被刷新,通过龙芯对其pcie bug的解释可以发现龙芯可能没有搞定xAPIC规范,以至于无法实现多核分载处理中断并多核提交DMA这一项历史硬件基本能力,xAPIC最初是在双路奔三时期引入,来缓解1998百兆网络体系结构的缺陷,在奔4时期逐渐完善,目前该规范在2012年已演化到x2APCI,目的是让多核CPU可以分载中断,提高设备驱动的并发DMA性能,在桌面平台,他是vulkan dx10等技术的基础硬件特性保障,以便于实现多线程多命令队列渲染,以此提高显卡设备的算力利用率,并使操作系统在玩游戏时桌面依然保持流畅,缺失该特性的CPU在显卡设备效能发挥上理论上是不如奔3的。 再看AMD显卡驱动补丁在龙芯平台的实现可以发现AMD显卡驱动在龙芯平台实现DMA时面临严重的缓存回写一致性问题,这导致在龙芯平台性能和蓝屏要做二选一,DMA缓存回写在现在CPU上是不必要的,只有在奔四以及之前的CPU才存在,只是当时的CPU缓存都很小,所以问题不严重,直到第三代奔四的出现这一问题变得越发严重,当时的创新声卡在带有大L3的奔四上出现爆音不连续问题,后期驱动解决方案是加大DMA缓存,但是延迟就倍增了,所以当时出现了第三方的KX 游飘驱动,这个驱动的目的是降低延迟,但问题是经常蓝屏,这一问题显然被龙芯继承了,龙芯的问题是他的L3是奔4的10倍以上,再加上要实现4核DMA并发回写,那么在L3回写规模上就是奔4的40倍,这显然会让L3成为系统的累赘,这种驱动玩游戏肯定没戏,游戏是刷L3的游戏,玩幻灯片肯定可以的,在这一问题拖累下,有理由相信龙芯玩游戏的性能理论上是不如奔2的。
AI后文明时代元宇宙是最佳的隐居方式? AI后文明时代元宇宙是最佳的隐居方式? 先看看目前可参考的隐居方式 1.传统的农耕模式,完全自食其力能实现不花一分钱,种个3分地水田,再种点儿菜就够了,还可以打野味,挖山药,采蘑菇,只要不懒,还能捞点儿,空闲时间多,足够做自己喜欢的事情,此乃上上之选。 2.农场经营式的模式,大小规模性的农林牧渔,因其逐利性,完全不用胆心吃穿用度,但其大量时间放在经营算计上去了,内心无法得到真正的平静和释放,本人不太喜欢这种模式,此乃中平之策。 3.书生式隐居,不会种地的, 10万存余额宝,每年利息收益3000,也能过上清贫自在的日子,觉得不够可以挣够30万,一年收益1万,就能过的很好了,也能全隐,此亦可为上上之策。 4,打短工式的隐居,每年固定打工2-6个月,隐居半年,年年如此,一年干几个月比较舒服不费心的工作,下半年又能回归隐居,既自由自在,又不担心生存之道,此乃中上之策。 总结以上隐居方式不难发现传统隐居方式实际上是一个零和约束问题,通过元宇宙隐居这能打破零和天花板约束,提供更加可靠的隐居方式。 元宇宙隐居方式限制少,可以在城市郊区或者三线城市实施,方便打短工,精神物质需要可以同时满足,不会受困于经济约束。 目前异数OS MR Lab是全球唯一有希望落地的元宇宙基础技术平台,200G到1.6T设计带宽,10万人同屏同屏,性能成本相对主流元宇宙技术有2到4个数量级的优势,demo已在steam发布,有悟性的欢迎关注开发。
为何一座国产超算中心打不过8张nvidia计算卡? (一) 为何一座国产超算中心打不过8张nvidia A100计算卡? (一) 近日有消息称在gpt大模型训练中,无锡超算中心的模型训练速度败给了8张a100计算卡,无锡超算中心算力125P,8张A100算力160T,因此无锡超算中心的计算效率不足a100的千分之一,下面刨析下无锡超算中心算力破产的原因。 一个17B权值规模的大模型,如果按照GPU内存16字节粒度计算,仅需要300G内存,在目前超算中心单节点数T内存的时代这并不算大,也正因如此,大模型是一个细粒度任务密集的计算,而国产超算中心,由于单个节点的计算性能差,因此只能过度依赖基于IB的分布式结构来堆计算核心数目提高峰值计算性能,这使得超算中心在细粒度的计算任务上效率上无法与a100抗衡。 被轻视的nvlink,nvlink连接多个GPU的内存控制器甚至与L2直连,这使得8张a100就可以满足17B的大模型内存需要,和ib不同,nvlink不需要操作系统和应用参与io调度,因此基于GPU的细粒度任务调度中,在nvlink上可以达到40GT/s的任务调度性能,而在传统操作系统中,基于分布式IO调度的细粒度任务调度性能仅10万左右,差5个数量级左右。 被神话的IB网络,由于A100计算卡也使用IB网络,因此有人认为IB是提升效率的利器,事实上并非如此,IB不光在A100计算卡使用,实际上在超算中心早已普及多年,而IB网络实际上是超算中心效率底下的元凶之一,传统认知中IB利用RDMA技术绕过了操作系统的低效IO调度,但实际上他只是减少了一次IO调度,他任然需要计算任务调度应用做IO调度,因此在实际性能表现中,他的IOPS性能仅比操作系统内核调度的IOPS高1倍,达到20万iops,实际上在细粒度任务场景中,这仅仅相当于一块200M的网卡,其200G的带宽优势反而是劣势,相比200M的eth网卡,他的带宽利用效率仅千分之一,这需要更高的能耗,和理论上差1000倍的延迟,对于nvlink,差5个数量级的情况并没有得到本质的改变。 因此唯一的解决方案是使用异数OS提高细粒度任务io性能2到4个数量级。 未完待续
互联总线科普 外行看互联带宽,内行看iops和延迟,先看特性数据,下面是异数OS平台测试收集得到的各类互联总线性能,按性能高低排列。 1. nvlink,用于L2互联内存通道聚合,优势是无需操作系统io栈干预,官方成绩40GIOPS,异数OS GPU IO栈测试得到 34 GIOPS 2. ccix 用于L3互联内存聚合,官方无数据,异数OS平台测得倚天710 (32核)2.2GIOPS 鲲鹏920 (32核)1.3GIOPS 3. intel ring 用于L3互联内存聚合,无官方数据,异数OS平台测得 0.6GIOPS(e5v1 12900k)。 4.AMD织物 L3互联 官方无数据,异数OS测得,8核 1.3GIOPS 5. AMD IF总线 用于L3链接星型交换机,官方无数据,异数OS测得 64路 0.08Giops。 6. intel pcie,用于设备互联,intel pcie挂在llc上,通用操作系统无法利用发挥,需要dpdk绕开通用操作系统io栈,所以一直没有应用生态,仅有异数OS支持,异数OS测得pcie 4.0 16x 0.2GIOPS, atom j1900 4MIOPS 7. 申威sw1621内存直连,申威ppt中有ring llc,但异数OS实际测试中无感,可能ring llc性能太差,延迟太高,大概每内存通道10MIOPS,8通道llc聚合 40MIOPS。 8. 申威 pcie llc互联,用于设备互联,通用操作系统无法利用发挥,需要dpdk绕开通用操作系统io栈,所以一直没有应用生态,官方提供dpdk数据大概20MIOPS。 9. 飞腾 pcie llc 互联,用于设备互联,通用操作系统无法利用发挥,需要dpdk绕开通用操作系统io栈,所以一直没有应用生态,官方提供dpdk数据大概20MIOPS。 10. 龙芯奔四北桥桥片hub互联,用于设备互联,优势是通用操作系统可利用全部性能,性能大概0.02M IOPS。 上面数据误差可能在2到5倍左右,但这样的误差是没有太大问题的,因为他不是数量级的误差,只有数量级的差距才是有意义的。从nvlink到龙芯奔四大概差距6个数量级以上。 再看一下,互联总线数量级差距的意义,据传一座国产算力第一的超算在gpt推理中打不过8张nvidia a100,其核心原因并不是int8算力有多强,而是在于nvlink的数量级性能优势,实际上gpt推理属于张量并行的计算,他是是基于内存io的计算,无论gpu int8多强,他实际上的算力天花板都是内存iops,而nvlink通过L2互联可以聚合8张计算卡128个内存通道,从而相对pcie实现4个数量级以上性能碾压,这也是nvidia制裁参数中的主要指标,也是nvidia值12000亿美元的本质原因。
【210406】大规模VR社交体验落地基建邀请 万人听令弓箭雨是1998年互联网初期提出的MMORPG与 MR等5G体验基本需求指标,他决定着MMORPG MR的基本体验素质,听令弓箭雨是一种全局动态交互式效果,只可以单地图单服实现,无法分布式扩充,按计划一场赤壁之战这种小规模战役需要40万人口,5-20Tbps带宽单地图服务器,当时需要50000倍服务器带宽,按照摩尔定律规划需要50年时间,但是这二十年网络服务器性能只提升了2-5倍,这导致MMORPG只能放弃世界地图,放弃用户社交,多开副本导致游戏蜕变为网络版氪金单机游戏,最终走向了失败,因此实现万人听令弓箭雨有望保持领先世界30年,做到全球唯一实时战争体验。 目前异数OS MR Lab平台近代战场demo已初步成形,单地图同屏6.5万人200G输出带宽,实现小规模万人听令弓箭雨实时战场,对比网游,比如传奇同地图服2000单位同屏200单位,视野50,WOW同地图服800,同屏50,视野200,而一个典型的弓箭雨需要1500米视野,放箭单位2万以上,所以万人听令弓箭雨效果目前只有电影中才会出现,电影比如魔戒攻城需要同服同屏10万单位,视野6000米,同屏需要容纳4个弓箭雨场景, 因此魔戒这种电影中出现的网游效果在30年内将是世界唯一体验,目前团队组建中,寻找美术投资运营合作伙伴,有兴趣的可以聊聊。
1 下一页