心海岛主88
-
异数OS
关注数: 10
粉丝数: 11
发帖数: 2,756
关注贴吧数: 32
海牙国际刑事法庭要开庭了? 有没有参加旁听投票的?这可能是我们唯一能做的事情了。
为何1998年后任何尝试tcpip加速的硬件技术都以失败告终? 最近传出某初创dpu厂股票跌停97%惨遭退市,究其原因还在于从过去的千兆多队列rss网卡到智能网卡,再到前两年骗了很多资本的NPU DPU,没有一个成功加速tcpip的技术,导致各家云计算大厂的服务器一直只能停留在1998年百兆以太网时代。 原因是tcpip的意义在于调度操作系统应用io栈,他是操作系统的心脏,所以不可能由硬件来实现并代替整个应用io栈,这属于基本伦理逻辑问题,因此tcpip的性能直接由操作系统的io性能决定,无论网卡做到千兆还是万兆十万兆百万兆,通用操作系统都只能稳定百兆,这是阿里云华为云腾讯云的高性能服务器无论使用多先进的网卡,对外都只提供百兆带宽上限的原因,通常网卡对tcpip的加速主要是tcp包校验卸载以及多队列rss fdir,但都无法用于io性能加速,一般主流通用操作系统在体系结构上无法有效利用rss fdir,除此之外rss fdir技术还对cpu pcie体系结构有要求,目前只有intel系列cpu可以完整支持rss fdir,因此虽然网卡的pps包转发性能可以做到很高,但通用操作系统的tcpip io应用栈是无法利用的,唯一的方法是升级操作系统到异数OS,提升操作系统的tcpip io性能4个数量级,这样才有希望利用千兆以上网卡的包收发性能。
为何1998年后任何尝试tcpip加速的硬件技术都以失败告终? 最近传出某初创dpu厂股票跌停97%惨遭退市,究其原因还在于从过去的千兆多队列rss网卡到智能网卡,再到前两年骗了很多资本的NPU DPU,没有一个成功加速tcpip的技术,导致各家云计算大厂的服务器一直只能停留在1998年百兆以太网时代。 原因是tcpip的意义在于调度操作系统应用io栈,他是操作系统的心脏,所以不可能由硬件来实现并代替整个应用io栈,这属于基本伦理逻辑问题,因此tcpip的性能直接由操作系统的io性能决定,无论网卡做到千兆还是万兆十万兆百万兆,通用操作系统都只能稳定百兆,这是阿里云华为云腾讯云的高性能服务器无论使用多先进的网卡,对外都只提供百兆带宽上限的原因,通常网卡对tcpip的加速主要是tcp包校验卸载以及多队列rss fdir,但都无法用于io性能加速,一般主流通用操作系统在体系结构上无法有效利用rss fdir,除此之外rss fdir技术还对cpu pcie体系结构有要求,目前只有intel系列cpu可以完整支持rss fdir,因此虽然网卡的pps包转发性能可以做到很高,但通用操作系统的tcpip io应用栈是无法利用的,唯一的方法是升级操作系统到异数OS,提升操作系统的tcpip io性能4个数量级,这样才有希望利用千兆以上网卡的包收发性能。
为何1998年后任何尝试加速tcpip的硬件都失败了? 最近传出某初创dpu厂股票跌停97%惨遭退市,究其原因还在于从过去的千兆多队列rss网卡到智能网卡,再到前两年骗了很多资本的NPU DPU,没有一个成功加速tcpip的技术,导致各家云计算大厂的服务器一直只能停留在1998年百兆以太网时代。 原因是tcpip的意义在于调度操作系统应用io栈,他是操作系统的心脏,所以不可能由硬件来实现并代替整个应用io栈,这属于基本伦理逻辑问题,因此tcpip的性能直接由操作系统的io性能决定,无论网卡做到千兆还是万兆十万兆百万兆,通用操作系统都只能稳定百兆,这是阿里云华为云腾讯云的高性能服务器无论使用多先进的网卡,对外都只提供百兆带宽上限的原因,通常网卡对tcpip的加速主要是tcp包校验卸载以及多队列rss fdir,但都无法用于io性能加速,一般主流通用操作系统在体系结构上无法有效利用rss fdir,除此之外rss fdir技术还对cpu pcie体系结构有要求,目前只有intel系列cpu可以完整支持rss fdir,因此虽然网卡的pps包转发性能可以做到很高,但通用操作系统的tcpip io应用栈是无法利用的,唯一的方法是升级操作系统到异数OS,提升操作系统的tcpip io性能4个数量级,这样才有希望利用千兆以上网卡的包收发性能。
姜萍事件谈高考改革? 姜萍事件谈高考改革?1. 2024年大模型高考分数公布,最差的大模型分数都已超过211大学录取分线,而中国211以上大学的录取率仅6.25%。2. 大模型在原理上相当于一部可以学习训练的新华字典,只要能记忆编码高考套路题即可,我们知道新华字典主要解决文盲问题,这也就是说中国93.75%的高等教育资源被用于解决文盲问题,高考无法用来筛选文盲。3. 原来中国还有姜萍这样万里挑一的人,他们被高考筛选出来的文盲挤占了生路,planB在一线国家没有希望,在三线国家更是传销,只有社会将资源投向合适的人搞planA才是全体社会唯一的出路。 所以高考应该如何改革? 解决文盲问题应该靠新华字典,而不是高等资源,有大模型陪练教育来释放93.75%的高等教育资源是有意义的,释放出来的教育资源只要拿出1%用于强基人才筛选就可解决中国的高等教育的效率顽疾。
姜萍事件的各方营谋与博弈? 姜萍事件的各方营谋与博弈? 1. 马云跟姜萍心心相惜,在这个社会草根不易,草根天才更是不易,能理解草根的也唯有草根。 2. 质疑姜萍的人通常是高考闭卷制度下的产物,那0.01%的小概率事件他们更相信不可能发生,闭卷的高考制度为那些能背题人提供了生路,但同样关上了能做题的人的生路,显然强基主要要求能做题,能背题的人不会偏科,能做题的人一个子领域花几年时间不一定能做60分,所以怎么选择,懂的都懂,用背题思维理解开卷作弊实质是幼稚可笑。 3. 人民日报站台姜萍是在洗白自己,但利用高考公平性的舆论引导全社会关上姜萍等人生路的恰恰也是他。 4. 有俄粉拉亲戚,说喷姜萍的都是美粉乌粉,但事实上姜萍的数学是planB,为什么不是planA,而在美帝那边这样的学生大多可以正常的选择planA,帮助姜萍关闭planA计划的是谁? 更多的疑问欢迎讨论补充。
服务器nas软路由领域龙芯128核的天花板不是奔4不是j1900而是奔2 一直有人认为服务器领域龙芯16核甚至未来的128核CPU性能是能够媲美J1900这种atom,但实际上是欠缺专业理解的,龙芯20年来一直依赖桥片实现pcie,但其桥片的pcie性能只能达到20万pps,这样的性能和2001年的845pe性能相当,都只能满足百兆网卡性能需要。并且nas服务器和主流服务器有一些不同,入门级nas服务器用户通常有使用usb移动硬盘的习惯,而usb总线属于轮训总线,桥片pcie网卡工作时会导致hub模式的南桥usb饿死,致使移动硬盘在nas环境工作时经常掉线。因此后来intel的入门nas cpu方案都有集成pcie,在买网卡送cpu的nas入门服务器 j1900上可以达到4兆pps的同时usb依然稳定不掉线,这个性能相当于龙芯的20倍,在20元e5v1洋垃圾上更是可以达到40Mpps,相当于龙芯的200倍,因此龙芯应该明白自己的天花板将竞争对手设置为奔四,而不是j1900这类跨越数量级的对手。 以上是之前的理解,但自从龙芯爆出pcie体系结构缺陷后,龙芯不如奔4的认知再次被刷新,通过龙芯对其pcie bug的解释可以发现龙芯可能没有搞定xAPIC规范,以至于无法实现多核分载处理中断并多核提交DMA这一项历史硬件基本能力,xAPIC最初是在双路奔三时期引入,来缓解1998百兆网络体系结构的缺陷,在奔4时期逐渐完善,目前该规范在2012年已演化到x2APCI,目的是让多核CPU可以分载中断,提高设备驱动的并发DMA性能,在服务器平台,他是多队列真千兆网卡(2004年的82574)技术的基础硬件特性保障,以便于实现多CPU负载均衡,协议栈并行加速等特性,是目前万兆十万兆四十万兆网卡实现sr-iov dpdk等技术的基础技术保障之一,显然该技术对服务器领域的影响比桌面领域的影响重要的多,因为真千兆网卡的dma规模通常是显卡vulkan的100倍左右,十万兆网卡的dma需求甚至是显卡的4个数量级,因此不支持xAPIC的CPU理论上是无法发挥真千兆网卡性能的,甚至也无法满足百兆网卡的dma性能需求,通常认为cpu的每核中断性能上限在4万,百兆网卡要做到0丢包则需要4核CPU(这是阿里云腾讯云的百兆高性能服务器通常建议4核以上的原因),但前提是cpu要能支持xAPIC实现多核分载中断,显然龙芯爆出pcie 缓存一致性bug后的解释让人怀疑龙芯这样的cpu是不是能实现百兆网卡0丢包这一高性能服务器基本要求。 再看AMD显卡驱动补丁在龙芯平台的实现可以发现AMD显卡驱动在龙芯平台实现DMA时面临严重的缓存回写一致性问题,这导致在龙芯平台性能和蓝屏要做二选一,DMA缓存回写在现在CPU上是不必要的,只有在奔四以及之前的CPU才存在,只是当时的CPU缓存都很小,所以问题不严重,直到第三代奔四的出现这一问题变得越发严重,这也是当年奔四越进步,游戏越卡顿的真凶,可能游戏上表现不会很直观,但是声卡的问题就很严重了,当时的创新声卡在带有大L3的奔四上出现爆音不连续问题,后期驱动解决方案是加大DMA缓存,但是延迟就倍增了,所以当时出现了第三方的KX 游飘驱动,这个驱动的目的是降低延迟,但问题是经常蓝屏,这一问题显然被龙芯继承了,龙芯的问题是他的L3是奔4的10倍以上,再加上要实现4核DMA并发回写,那么在L3回写规模上就是奔4的40倍,这显然会让L3成为系统的累赘,要知道创新声卡的dma规模大概也就数百,而百兆网卡的dma规模在14万,所以在有比奔4严重40倍的L3回写障碍的龙芯上,百兆网卡是不是能真的0丢包令人怀疑。 所以龙芯这样的cpu服务器或者网络存储领域应该必然会碰到难以逾越的技术大坑。
桌面领域龙芯的天花板不是奔4不是j1900而是奔2? 一直有人认为桌面领域龙芯16核甚至未来的128核CPU性能是能够媲美J1900这种atom,但实际上是欠缺专业理解的,龙芯20年来一直依赖桥片实现pcie,但其桥片的pcie是共享独占的,这导致他的桌面体验和2001年的845pe性能相当甚至更差,在硬盘和显卡IO压力较大时都会导致鼠标键盘卡顿丢失输入,只是龙芯的问题比奔4更严重,原因是奔4时代懂行的玩家会使用PS2的键盘鼠标和windows而不是USB键盘鼠标+linux,PS2+windows的优点是有硬件中断,在DMA过程间隙中可以抢占系统让windows内核界面引擎得到响应,usb键盘鼠标由于没有硬件中断因此鼠标键盘会失去响应,后来intel的j1900 这样的白送cpu方案中都有集成pcie,因此dma过程不会再导致主板usb饿死,所以PS2被淘汰,PS2的淘汰意味着龙芯的桌面体验再也没有希望超越P4,即便龙芯能够集成pcie,也会因为缺乏windows的内核实时中断gui支持而无法超越奔4,因此龙芯应该明白自己的天花板将竞争对手设置为奔4,而不是j1900这类跨越数量级的对手。 以上是之前的理解,但自从龙芯爆出pcie体系结构缺陷后,龙芯不如奔4的认知再次被刷新,通过龙芯对其pcie bug的解释可以发现龙芯可能没有搞定xAPIC规范,以至于无法实现多核分载处理中断并多核提交DMA这一项历史硬件基本能力,xAPIC最初是在双路奔三时期引入,来缓解1998百兆网络体系结构的缺陷,在奔4时期逐渐完善,目前该规范在2012年已演化到x2APCI,目的是让多核CPU可以分载中断,提高设备驱动的并发DMA性能,在桌面平台,他是vulkan dx10等技术的基础硬件特性保障,以便于实现多线程多命令队列渲染,以此提高显卡设备的算力利用率,并使操作系统在玩游戏时桌面依然保持流畅,缺失该特性的CPU在显卡设备效能发挥上理论上是不如奔3的。 再看AMD显卡驱动补丁在龙芯平台的实现可以发现AMD显卡驱动在龙芯平台实现DMA时面临严重的缓存回写一致性问题,这导致在龙芯平台性能和蓝屏要做二选一,DMA缓存回写在现在CPU上是不必要的,只有在奔四以及之前的CPU才存在,只是当时的CPU缓存都很小,所以问题不严重,直到第三代奔四的出现这一问题变得越发严重,当时的创新声卡在带有大L3的奔四上出现爆音不连续问题,后期驱动解决方案是加大DMA缓存,但是延迟就倍增了,所以当时出现了第三方的KX 游飘驱动,这个驱动的目的是降低延迟,但问题是经常蓝屏,这一问题显然被龙芯继承了,龙芯的问题是他的L3是奔4的10倍以上,再加上要实现4核DMA并发回写,那么在L3回写规模上就是奔4的40倍,这显然会让L3成为系统的累赘,这种驱动玩游戏肯定没戏,游戏是刷L3的游戏,玩幻灯片肯定可以的,在这一问题拖累下,有理由相信龙芯玩游戏的性能理论上是不如奔2的。
关于龙芯pcie 捣浆糊问题的解释? 龙芯在混淆一个基础理论问题来掩盖自己的错误。 龙芯借分布式llc缓存一致性问题来混淆其pcie体系结构存在的顽疾问题,关于分布式llc缓存一致性问题并非无解,而龙芯自己因为1998体系结构的缺陷,导致其bug却是无解的,或者是得到摁下葫芦浮起瓢的更严重bug。 关于分布式llc一致性问题还要看cpu体系结构和操作系统支持,多llc缓存一致和分布式众核扩充本就是一个矛盾的鱼与熊掌问题,通用操作系统(linux win)由于基础理论约束,所以一般要求多die缓存一致,否则操作系统及其应用生态就不可用或者是性能被迫下降数十个数量级,这一问题直到异数OS基础理论障碍约束解除之后才得以解决,异数OS的设计前提就是为了应对众核体系结构中分布式缓存不一致而设计的,通过高性能的rpc微内核,他甚至可以将没有一致性要求的分布式cpu聚合成统一的算力系统,上层应用在基于rpc基础上做算力分配时就不会再被多核缓存一致问题所困扰,而这一方案目前只能使用异数OS来实现,其他操作系统都是无解的。
龙芯pcie bug的根本原因是什么? 这个bug是pci时代存在的众所周知的bug,在pcie时代已解决,只是因为龙芯用的桥片并不符合pcie规范,所以出现了更严重的问题,pcie要求挂在共享llc上来解决cpu和设备对内存的多写同步问题,但桥片是cpu 和设备共享写,中间存在cache与内存不同步问题,这本身是体系架构上无法解决的逻辑问题,pci时代就有一直就没解决,在多核cpu上问题更加突出严重,所以才有了cpu集成pcie的方案使用共享cache写来解决内存同步写问题,同时也避免了cache必须要回写内存的低效问题,但龙芯一直固执的使用桥片来实现假pcie方案,不但效能存在问题,pci时代的老bug也得不到解决。
AI后文明时代元宇宙是最佳的隐居方式? AI后文明时代元宇宙是最佳的隐居方式? 先看看目前可参考的隐居方式 1.传统的农耕模式,完全自食其力能实现不花一分钱,种个3分地水田,再种点儿菜就够了,还可以打野味,挖山药,采蘑菇,只要不懒,还能捞点儿,空闲时间多,足够做自己喜欢的事情,此乃上上之选。 2.农场经营式的模式,大小规模性的农林牧渔,因其逐利性,完全不用胆心吃穿用度,但其大量时间放在经营算计上去了,内心无法得到真正的平静和释放,本人不太喜欢这种模式,此乃中平之策。 3.书生式隐居,不会种地的, 10万存余额宝,每年利息收益3000,也能过上清贫自在的日子,觉得不够可以挣够30万,一年收益1万,就能过的很好了,也能全隐,此亦可为上上之策。 4,打短工式的隐居,每年固定打工2-6个月,隐居半年,年年如此,一年干几个月比较舒服不费心的工作,下半年又能回归隐居,既自由自在,又不担心生存之道,此乃中上之策。 总结以上隐居方式不难发现传统隐居方式实际上是一个零和约束问题,通过元宇宙隐居这能打破零和天花板约束,提供更加可靠的隐居方式。 元宇宙隐居方式限制少,可以在城市郊区或者三线城市实施,方便打短工,精神物质需要可以同时满足,不会受困于经济约束。 目前异数OS MR Lab是全球唯一有希望落地的元宇宙基础技术平台,200G到1.6T设计带宽,10万人同屏同屏,性能成本相对主流元宇宙技术有2到4个数量级的优势,demo已在steam发布,有悟性的欢迎关注开发。
为何一座国产超算中心打不过8张nvidia 计算卡?(三) 为何一座国产超算中心打不过8张nvidia A100计算卡?(三) (接上篇) 在与nvlink性能差5个数量级的情况下,超算中心居然能战平8张nvidia A100,说明中国的软件优化团队确实很给力,从5个数量级的性能差距提高到了3个数量级的性能差距。但是Nvlink的不足是他只能小规模分布式场景,无法堆8张以上卡,因此他只能保持3个数量级的性能优势,而无法再扩充提高gpt参数规模和算力,如需要扩充算力和存储规模,则还需要打破无法绕的过分布式存储墙,除了CPU端操作系统换用异数OS外,真正能够缓解存储墙约束的则是在GPU中集成NIC,并实现高性能操作系统从而拥有独立的分布式任务调度能力,因此异数OS有义务移植异数OS基础理论到GPU环境。 目前异数OS已实现了GPU环境的下的TCPIP协议栈最小内核支持,这让GPU有望在高拥塞高错误的以太网环境通过通用技术扩展算力,目前实做中在RX580这样的平民GPU上实现了1 GIOPS的性能,他相当于双路128核epyc 7551在异数OS下iops性能的3倍,虽然这个表现依然和nvlink有1个数量级的性能差距,但相比linux的iops性能他提升了4个数量级,这将大大改善了分布式存储墙效率,并补充nvlink在分布式环境下无法扩充规模的不足。
吧里有没有认识硅光互联芯片开发的关系介绍合作下? 有认识的欢迎联系
为何一座国产超算中心打不过8张nvidia 计算卡?(二) 为何一座国产超算中心打不过8张nvidia A100计算卡?(二) (接上篇) 在与nvlink性能差5个数量级的情况下,超算中心居然能战平8张nvidia A100,说明中国的软件优化团队确实很给力,从5个数量级的性能差距提高到了3个数量级的性能差距。但是在无力改变cpu计算性能依然只能依赖分布式结构的情况下,只能想办法提高网络的iops性能,那么方案只能是唯一的如下所示。 1.使用eth网络提高细粒度任务调度效率,eth可以实现64字节小包,因此相比4K甚至64K的IB,他的效率可以提升1000倍,虽然不及nvlink,但相比IB依然可以提高3个数量级的带宽利用效率还是有一定意义的。 2. 使用异数OS操作系统提升操作系统IOPS性能2到4个数量级,这样才能充分发挥eth网络的io性能,实现200G到1.6T的eth网络性能,而传统的操作系统仅能满足100M eth网络的性能需要。 目前异数OS MR Lab 的元宇宙Demo已在Steam发布,设计带宽200G到1.6T,十万人同服同屏,全球唯一,欢迎体验研究。
为何一座国产超算中心打不过8张nvidia计算卡? (一) 为何一座国产超算中心打不过8张nvidia A100计算卡? (一) 近日有消息称在gpt大模型训练中,无锡超算中心的模型训练速度败给了8张a100计算卡,无锡超算中心算力125P,8张A100算力160T,因此无锡超算中心的计算效率不足a100的千分之一,下面刨析下无锡超算中心算力破产的原因。 一个17B权值规模的大模型,如果按照GPU内存16字节粒度计算,仅需要300G内存,在目前超算中心单节点数T内存的时代这并不算大,也正因如此,大模型是一个细粒度任务密集的计算,而国产超算中心,由于单个节点的计算性能差,因此只能过度依赖基于IB的分布式结构来堆计算核心数目提高峰值计算性能,这使得超算中心在细粒度的计算任务上效率上无法与a100抗衡。 被轻视的nvlink,nvlink连接多个GPU的内存控制器甚至与L2直连,这使得8张a100就可以满足17B的大模型内存需要,和ib不同,nvlink不需要操作系统和应用参与io调度,因此基于GPU的细粒度任务调度中,在nvlink上可以达到40GT/s的任务调度性能,而在传统操作系统中,基于分布式IO调度的细粒度任务调度性能仅10万左右,差5个数量级左右。 被神话的IB网络,由于A100计算卡也使用IB网络,因此有人认为IB是提升效率的利器,事实上并非如此,IB不光在A100计算卡使用,实际上在超算中心早已普及多年,而IB网络实际上是超算中心效率底下的元凶之一,传统认知中IB利用RDMA技术绕过了操作系统的低效IO调度,但实际上他只是减少了一次IO调度,他任然需要计算任务调度应用做IO调度,因此在实际性能表现中,他的IOPS性能仅比操作系统内核调度的IOPS高1倍,达到20万iops,实际上在细粒度任务场景中,这仅仅相当于一块200M的网卡,其200G的带宽优势反而是劣势,相比200M的eth网卡,他的带宽利用效率仅千分之一,这需要更高的能耗,和理论上差1000倍的延迟,对于nvlink,差5个数量级的情况并没有得到本质的改变。 因此唯一的解决方案是使用异数OS提高细粒度任务io性能2到4个数量级。 未完待续
服务器nas软路由领域龙芯的天花板是奔4而不是j1900 一直有人认为服务器领域龙芯16核甚至未来的128核CPU性能是能够媲美J1900这种atom,但实际上是欠缺专业理解的,龙芯20年来一直依赖桥片实现pcie,但其桥片的pcie性能只能达到20万pps,这样的性能和2001年的845pe性能相当,都只能满足百兆网卡性能需要。并且nas服务器和主流服务器有一些不同,入门级nas服务器用户通常有使用usb移动硬盘的习惯,而usb总线属于轮训总线,桥片pcie网卡工作时会导致hub模式的南桥usb饿死,致使移动硬盘在nas环境工作时经常掉线。因此后来intel的入门nas cpu方案都有集成pcie,在买网卡送cpu的nas入门服务器 j1900上可以达到4兆pps的同时usb依然稳定不掉线,这个性能相当于龙芯的20倍,在20元e5v1洋垃圾上更是可以达到40Mpps,相当于龙芯的200倍,因此龙芯应该明白自己的天花板将竞争对手设置为奔四,而不是j1900这类跨越数量级的对手。
桌面领域龙芯的天花板是奔4而不是j1900 一直有人认为桌面领域龙芯16核甚至未来的128核CPU性能是能够媲美J1900这种atom,但实际上是欠缺专业理解的,龙芯20年来一直依赖桥片实现pcie,但其桥片的pcie是共享独占的,这导致他的桌面体验和2001年的845pe性能相当甚至更差,在硬盘和显卡IO压力较大时都会导致鼠标键盘卡顿丢失输入,只是龙芯的问题比奔4更严重,原因是奔4时代懂行的玩家会使用PS2的键盘鼠标和windows而不是USB键盘鼠标+linux,PS2+windows的优点是有硬件中断,在DMA过程间隙中可以抢占系统让windows内核界面引擎得到响应,usb键盘鼠标由于没有硬件中断因此鼠标键盘会失去响应,后来intel的j1900 这样的白送cpu方案中都有集成pcie,因此dma过程不会再导致主板usb饿死,所以PS2被淘汰,PS2的淘汰意味着龙芯的桌面体验再也没有希望超越P4,即便龙芯能够集成pcie,也会因为缺乏windows的内核实时中断gui支持而无法超越奔4,因此龙芯应该明白自己的天花板将竞争对手设置为奔4,而不是j1900这类跨越数量级的对手。
异数OS 程序员资格认证官方指定课程-基础篇 需要在服务器领域提高竞争力的程序员可以报名经营,都是干货,面向云计算,元宇宙,数据库,操作系统,游戏,物联网等领域35岁以上资深后端研发,基础技术研发。课程连接见二楼。
异数OS 程序员资格认证官方指定课程-基础篇 需要在服务器领域提高竞争力的程序员可以报名经营,都是干货,面向云计算,元宇宙,数据库,操作系统,游戏,物联网等领域35岁以上资深后端研发,基础技术研发。课程连接见二楼。
异数OS 程序员资格认证官方指定课程-基础篇 需要在服务器领域提高竞争力的程序员可以报名经营,都是干货,面向云计算,元宇宙,数据库,操作系统,游戏,物联网等领域35岁以上资深后端研发,基础技术研发。 课程连接见二楼。
显卡游戏pcie性能需求分析 1. iops性能需求,一些老游戏存在drawcall性能问题,在需要刷粒子情况下问题更严重,所以后来出现了vulkan来解决这个问题,从而实现1MIOPS的性能(100万drawcall),这相当于千兆网卡的性能,一个100帧的游戏可以刷1万规模的粒子,但后来opengl4.0以后到4.6都加入了大量的drawcall合批的api,一些游戏优化后每帧只需要数十drawcall就能实现上百万规模的粒子刷新,也就是说只需要一个10M网卡性能规模的iops就可以榨干gpu,当然这种方法是不能用于张量并行ai的,张量并行ai不能合批io。 2. 带宽需求,实际上大部分游戏只有在游戏加载资源时需要有较高的pcie带宽,在运行时不需要,除非一些重资源3A需要随时加载资源,实际上不专业的lod在资源加载反应到画面上时,已经为时已晚,无论多少带宽都会有间断感。 3. 显卡直连cpu意义大于pcie带宽 iops性能以及cpu性能,问题的重点不是直连性能有多高,而是在于鼠标输入设备,桥片实际是一个hub,显卡在不停的刷io,尽管这个io规模可能仅相当于一块10M网卡。但这会造成hub上的usb控制器丢失io无法抢断,所以奔四龙芯时代的电脑用usb鼠标都会卡顿不稳定,当intel集成pcie后,ps2鼠标惨遭淘汰,所以导致龙芯奔四这类cpu都只能淘汰。
互联总线科普 外行看互联带宽,内行看iops和延迟,先看特性数据,下面是异数OS平台测试收集得到的各类互联总线性能,按性能高低排列。 1. nvlink,用于L2互联内存通道聚合,优势是无需操作系统io栈干预,官方成绩40GIOPS,异数OS GPU IO栈测试得到 34 GIOPS 2. ccix 用于L3互联内存聚合,官方无数据,异数OS平台测得倚天710 (32核)2.2GIOPS 鲲鹏920 (32核)1.3GIOPS 3. intel ring 用于L3互联内存聚合,无官方数据,异数OS平台测得 0.6GIOPS(e5v1 12900k)。 4.AMD织物 L3互联 官方无数据,异数OS测得,8核 1.3GIOPS 5. AMD IF总线 用于L3链接星型交换机,官方无数据,异数OS测得 64路 0.08Giops。 6. intel pcie,用于设备互联,intel pcie挂在llc上,通用操作系统无法利用发挥,需要dpdk绕开通用操作系统io栈,所以一直没有应用生态,仅有异数OS支持,异数OS测得pcie 4.0 16x 0.2GIOPS, atom j1900 4MIOPS 7. 申威sw1621内存直连,申威ppt中有ring llc,但异数OS实际测试中无感,可能ring llc性能太差,延迟太高,大概每内存通道10MIOPS,8通道llc聚合 40MIOPS。 8. 申威 pcie llc互联,用于设备互联,通用操作系统无法利用发挥,需要dpdk绕开通用操作系统io栈,所以一直没有应用生态,官方提供dpdk数据大概20MIOPS。 9. 飞腾 pcie llc 互联,用于设备互联,通用操作系统无法利用发挥,需要dpdk绕开通用操作系统io栈,所以一直没有应用生态,官方提供dpdk数据大概20MIOPS。 10. 龙芯奔四北桥桥片hub互联,用于设备互联,优势是通用操作系统可利用全部性能,性能大概0.02M IOPS。 上面数据误差可能在2到5倍左右,但这样的误差是没有太大问题的,因为他不是数量级的误差,只有数量级的差距才是有意义的。从nvlink到龙芯奔四大概差距6个数量级以上。 再看一下,互联总线数量级差距的意义,据传一座国产算力第一的超算在gpt推理中打不过8张nvidia a100,其核心原因并不是int8算力有多强,而是在于nvlink的数量级性能优势,实际上gpt推理属于张量并行的计算,他是是基于内存io的计算,无论gpu int8多强,他实际上的算力天花板都是内存iops,而nvlink通过L2互联可以聚合8张计算卡128个内存通道,从而相对pcie实现4个数量级以上性能碾压,这也是nvidia制裁参数中的主要指标,也是nvidia值12000亿美元的本质原因。
看懂龙芯造假数据,cpu延迟篇 这张图是龙芯16核多核延迟的测试数据,这个延迟看龙芯的L3纯粹就是摆设,全靠内存控制器,比atom延迟还高不少,另外这个延迟分布看,龙芯多核具有一致的延迟,因此可以推断龙芯没有搞定numa分布式内存架构,内存带宽和io存在多核拥塞,多核访存效率会很低,虽然延迟测试看似比numa架构低,但这是无多核负载情况下的测试,而不是有负载测试,相对numa架构,加了负载后,延迟会根据访存核数迅速暴增到4到16倍,这可能是龙芯多核性能差的根本原因。
龙芯发布的nginx对比数据是忽悠外行的假数据 众所周知nginx在笨4时代已经可以达到单核10万qps的性能,在atom时代更没有压力,在一些定制tcp协议栈的linux内核中还能多核线性扩充成绩,比如mtcp,他的对比成绩可能来源于云虚拟机服务器或者没有服务器网卡的普通pc环境,普通云服务器一般没有sriov,在没有sriov的虚拟机上,io性能会大打折扣,再加上云虚拟机必须打上Spectre补丁,io性能再次骨折腰斩,如果是在奔四志强或者atom的裸金属上,qps做到12万是没有压力的。
龙芯unixbench成绩虚高可能是因为存在严重的侧信道漏洞 龙芯的unixbench在管道测试项使用绑核方法作弊使得成绩虚高,同时也暴露出他的线程切换成绩比x86高40%,但mips的通用寄存器规模是x86的两倍,理论上管道成绩只能达到x86的一半,因此成绩高理论上讲属于作弊,x86在侧信道漏洞出现后做了一系列补丁,致使管道性能直接骨折,但这是为了安全牺牲了性能。 如果龙芯没有作弊,那么虚高的成绩看有理由相信龙芯在侧信道安全上的设计是极其不负责任的,黑客可依据此成绩来挖掘出比x86更多更严重的侧信道漏洞,侧信道漏洞主要影响云服务器,存在侧信道漏洞的服务器CPU在linux上都只有被淘汰的命运。
如果芯联芯不给龙芯mips授权,龙芯该何去何从? 如果芯联芯不给龙芯mips授权,龙芯该何去何从?
信创是国产CPU芯片产业的掘墓人? 信创搞了有五年了,各大厂商越来越做不出与市场接轨的CPU,却越来越热衷于PPT,这是信创的初衷还是信创的失败?
信创是国产CPU芯片产业的掘墓人? 信创搞了有五年了,各大厂商越来越做不出与市场接轨的CPU,却越来越热衷于PPT,这是信创的初衷还是信创的失败?
龙芯侵犯MIPS知识产权案胜诉是知识产权法的失败吗? 龙芯侵犯MIPS知识产权案胜诉是知识产权法的失败吗?
龙芯侵犯MIPS知识产权案胜诉是知识产权法的失败吗? 龙芯侵犯MIPS知识产权案胜诉是知识产权法的失败吗?
cec旗下熊猫电子引进落后技术,液晶屏不良率高达20%
芯联芯治疗龙芯的故事有最新进展吗?
龙芯打印机驱动涉嫌侵犯微软windows操作系统知识产权 二进制执行win的内核组件程序以及第三方驱动,在没有商业授权情况下,属于盗版行为,龙芯需要拿到微软授权以及打印机厂商的授权才属于合法行为,所以龙芯拿到授权了吗?是否会因为打印机驱动知识产权侵权而被罚破产。 中国颁布了《计算机软件保护条例》,对软件实施著作权法律保护作了具体规定。依据《计算机软件保护条例》第十四条 软件著作权自软件开发完成之日起产生。自然人的软件著作权,保护期为自然人终生及其死亡后50年,截止于自然人死亡后第50年的12月31日; 也就是说微软没破产,就属于侵权。
龙芯打印驱动涉嫌侵犯知识产权 二进制执行win的内核组件程序以及第三方驱动,在没有商业授权情况下,属于盗版行为,龙芯需要拿到微软授权以及打印机厂商的授权才属于合法行为,所以龙芯拿到授权了吗?是否会因为打印机驱动知识产权侵权而被罚破产。
龙芯打印驱动涉嫌侵犯知识产权 二进制执行win的内核组件程序以及第三方驱动,在没有商业授权情况下,属于盗版行为,龙芯需要拿到微软授权以及打印机厂商的授权才属于合法行为,所以龙芯拿到授权了吗?是否会因为打印机驱动知识产权侵权而被罚破产。
新制裁下来了,海光危险了吗? 要求美企不能投资中国芯片,不能担任高管,海光的老板是AMD,AMD必须完全撤出海光吗?那是不是要破产了☺️
十万兆NAS需求征询 十万兆NAS目前可以用异数OS做到,网络带宽大概14GB/S,客户端windows应该只能支持万兆,也就是说带10台win客户端,这个级别NAS如果价格在12000到20000的话会有人考虑买吗?
兆芯好几年没消息了,最近看新闻好像被intel收购了吗
对12600K的评价 总体来看12600K价格不腰斩的情况下不值得看,12600K 的整体平台价格对标5900x,功耗高于5900x,本以为多核性能可以把5900x拉下马,结果是多核性能只能对标5800x,功耗却是5800x两倍,虽然单核理论成绩漂亮,但实际上游戏性能只比5800x平均高5%,而年底Zen3D实际游戏性能提升估计是15%.
关于12代酷睿ipc大幅提升的原因 12代最大的不同是三倍L2,而且是共享的,这样相比amd投资L3更加有效果,可以用更小的缓存容量换来更大更直接的ipc提升 ,尤其是多核优化的游戏,共享L2要比共享L3更加有效果。 估计AMD Zen4不一定能打的过12代酷睿,只能等zen5了,看来AMD离倒闭不远了。
芯联芯治疗龙芯的故事有最新进展吗? 芯联芯治疗龙芯的故事有最新进展吗?知道的聊聊。
芯联芯治疗龙芯的故事有最新进展吗? 芯联芯治疗龙芯的故事有最新进展吗?知道的聊聊。
如题,欢迎各位大拿评论并撰写该排名表,如果失去信创支撑,在市 如题,欢迎各位大拿评论并撰写该排名表,如果失去信创支撑,在市场公平开放的前提下,各个国产CPU厂的倒闭速度,倒闭原因,以及避免倒闭,避免信创骗经费的方法路线。
【210406】大规模VR社交体验落地基建邀请 万人听令弓箭雨是1998年互联网初期提出的MMORPG与 MR等5G体验基本需求指标,他决定着MMORPG MR的基本体验素质,听令弓箭雨是一种全局动态交互式效果,只可以单地图单服实现,无法分布式扩充,按计划一场赤壁之战这种小规模战役需要40万人口,5-20Tbps带宽单地图服务器,当时需要50000倍服务器带宽,按照摩尔定律规划需要50年时间,但是这二十年网络服务器性能只提升了2-5倍,这导致MMORPG只能放弃世界地图,放弃用户社交,多开副本导致游戏蜕变为网络版氪金单机游戏,最终走向了失败,因此实现万人听令弓箭雨有望保持领先世界30年,做到全球唯一实时战争体验。 目前异数OS MR Lab平台近代战场demo已初步成形,单地图同屏6.5万人200G输出带宽,实现小规模万人听令弓箭雨实时战场,对比网游,比如传奇同地图服2000单位同屏200单位,视野50,WOW同地图服800,同屏50,视野200,而一个典型的弓箭雨需要1500米视野,放箭单位2万以上,所以万人听令弓箭雨效果目前只有电影中才会出现,电影比如魔戒攻城需要同服同屏10万单位,视野6000米,同屏需要容纳4个弓箭雨场景, 因此魔戒这种电影中出现的网游效果在30年内将是世界唯一体验,目前团队组建中,寻找美术投资运营合作伙伴,有兴趣的可以聊聊。
SW3232 何时发布,可有样机借测? SW3232 何时发布,可有样机借测?
红芯才走,木兰又来,开源诈骗何时停,中国软件为何大而不强 今天看到这个吧,来发一贴,欢迎各位战忽帮助指正完善
物联网IOT 5G MR MMORPG 游戏项目融资。 万人听令弓箭雨是1998年互联网初期提出的MMORPG MR等5G IOT体验基本需求指标,他决定着MMORPG MR的基本体验素质,听令弓箭雨是一种全局动态交互式效果,只可以单地图单服实现,无法分布式扩充,按计划一场赤壁之战这种小规模战役需要40万人口,5-20Tbps带宽单地图服务器,当时需要50000倍服务器带宽以及算力资源,按照摩尔定律规划需要50年时间,但是这二十年网络服务器性能只提升了2-5倍,这导致MMORPG只能放弃世界地图,多开副本导致游戏蜕变为网络氪金单机游戏,最终走向了失败,因此实现万人听令弓箭雨有望保持领先世界30年,做到全球唯一实时战争体验,目前异数OS 近代战场demo已初步成形,单地图6.5万人200G输出带宽,实现小规模万人听令弓箭雨实时战场。需要寻找一位口碑零运营投资合伙人长期运营该游戏,有兴趣的可以聊聊看demo,demo相关视频在B站,可百度 异数OS-近代战场 翻看。
1
下一页