hcdpz hcdpz
关注数: 50 粉丝数: 136 发帖数: 4,740 关注贴吧数: 31
几种国产众核通用CPU的 片内互连结构 鲲鹏920:上图是三颗裸晶组成的64核芯片,其中左边两颗为计算die,每颗含32个TSv110核,由4个核组成一个簇,8个簇挂在一个环状总线上,32MB的L3作为一个节点也挂在环上,同样的 存控 也作为一个节点挂在环上。 三颗裸晶之间由 chip间总线实现互连。 环网互连好处是节点间访问延迟短,但不利于核心数目的扩展,环网上如果核心数目过多,在节点访问繁忙时容易造成阻塞。 ======================================================================================飞腾FT2000+:共64核,划分为8个panel,每个panel有两个簇,每个簇有4个662核心共享4MB的L2,没有L3,每个panel配备一个存控MCU。 panel之间使用Mesh网格互连,每个panel内有一个路由单元用于控制Mesh网络的访问。 Mesh网的好处是,扩展性很好,可以方便的扩展到128甚至更多核心。不足之处是 节点间访问延迟较大,尤其是 跨panel时访问延迟会明显增加。飞腾S2500:片内互连和FT2000+高度相似,核心升级为663(增加了对 Meldown 和 Spectre 漏洞的防范)。 另外在每个panel的MCU存控与路由节点间加入了8MB的L3 Cache。(相当于将最早的FT2000的片外L3及存控集成到了片内。)一般情况下每个核心就近访问所在panel的L3和MCU实现访存,特殊模式下也可以跨panel访问MCU,但由于此时访问延迟较大, 跨panel的L3基本失去了意义。 另外S2500还增加了4个片间互连接口,用于实现多路系统。 ======================================================================================申威sw3231:32核,分成两个环装总线,每个环上有8个处理器簇,每个簇有2个申威core3核心共享L2 Cahe。 两个环之间有4条直连通路互连。同时两个环汇集到中心的DLX交叉开关,两个存控簇也连接到DLX,每个存控簇有4个通道的DDR控制器和32MB的LLC。同时实现片间互相的3个接口也连接于该DLX上,可以实现最多4路CPU互连。
ZT:如何看待2020年7月28日Arm中国团队发出的公开信 作者:lolicon 来源:知乎 原来肯定是毫无意义的挣扎,这种玩法不符合正常的商业规则,在当今社会完全行不通。但是今日是何时啊,当今是懂历四年八月,白宫皇上圣明,群贤在位………… 远的是美国对中国企业下手,ARM作为第三国企业你说被迫也好自愿也好,反正也是跟着动手了。 中的是美国对中国企业的打压变本加厉,已经连基本的法律、商业原则都不讲了,直接“和买”tiktok。 近的是ARM自己犯到中国手上了,ARM的老板软银在欧美投资失败最近两年估计亏了近500亿美元,急需出售ARM回笼资金(避免破产),中国大陆是ARM的主要市场,中国监管当局对ARM任何可能的出售行为具备否决权………… 从世界角度说,ARM的IP是当今世界重要的基础设施,关乎世界经济和人民生活的正常运行,属于重要的公共财产。我国作为负责任的大国,不想剥夺ARM公司对其财产的受益权,但是也要防止对这一重要公共财产的滥用和误用。 从中国自己的角度来说,为了维护国家利益,也要防止美国政府利用ARM公司对中国的打压和霸凌。 那么中国监管当局出于防止市场垄断维护市场经济秩序,当然可以对ARM提出一些整改意见,例如提供包括再授权许可的全部技术长期授权(不限于目前技术,包括未来技术),ARM对ARM中国的股权不再有投票权等等,ARM中国引入新的股东等等。 ARM可以提出意见,我国监管当局也有权对任何涉及ARM控制权转移的操作一票否决。 实际我国对软银还有更厉害的杀招,软银目前最主要的资产是他的阿里巴巴股权,而这个股权完全依赖于脆弱的VIE结构。(截止目前,软银持股24.9%仍为阿里最大股东) 前面有个回答说得很好,ARM中国本身就不是一个正常商业逻辑的产物,一个本地销售公司需要让外来股东占比51%吗,需要弄一堆技术授权吗。说白了,ARM中国是在中国贸易战开战并且逐渐升级以后,ARM公司和中国势力达成默契,准备的一个类似50年代香港的白手套/窗口,是大英帝国的家传手艺。但是2018年庄汉生政权上台后,英国跟着懂皇的指挥棒转,要对双方的默契和安排反悔了。而中方原来的安排出了问题,找来的白手套其实是两面人,ARM中国近一段时间来的纷争就来源于这个变化。 不过如前面所说,ARM近日是犯在中国政府手里了。而区区厚朴投资,当年XX系,那个谁谁谁不牛B吗,现在在哪里呢?
国产通用服务器CPU(ARM64)测评分析 作为第三方测评机构,鹏城实验室最近完成了针对国产ARM64通用处理器的性能测试评估。 本次测试,共测试了5款CPU,其中包括4款进入XC市场的国产ARM64指令集兼容CPU。 考虑到篇幅,这里只介绍大家比较关心的飞腾FT2000+和鲲鹏920,并且主要介绍其整数性能(int)。 被测芯片的参数如下:测试的软件环境如下:由上表可见,FT2000+和鲲鹏920的测试环境是完全一样的,包括操作系统、编译器、以及编译优化参数都完全一致。 报告给出的测试对比,都是使用GCC9.1.0 -O3编译的测试结果。 FT2000+(2.2Ghz)和 鲲鹏920(2.6Ghz 48核)Spec cpu 2017的测试结果对比如下:以下为 ,华为和飞腾官方给出的两种CPU在spec cpu 2006下的测试成绩:注:上图FT-2000+的工作频率为2.3GHz。 下表为两种CPU“整数性能” 在spec17和spec06下测试结果的对比:注:鉴于频率接近可以认为性能增长基本是线性的,所以飞腾的spec06 int speed值由13.5/2.3 *2.2=12.9得出,rate同理。由于没有官方成绩,鲲鹏920的spec06int speed值源自meJustPlay网友,同时也与鲲鹏920的主任架构师夏晶, 每Ghz性能10.8的说法相一致(可能与实际成绩有差异,但不影响最终结论)。 由上表可以看出,在相同测试环境下的spec17测试成绩对比,飞腾显著优于基于官方发布的spec06成绩所做对比。 飞腾在spec17和spec06测试中的多核效率基本一致。鲲鹏在spec17测试时的多核效率则显著优于spec06时的多核效率。 由此可以见,在不同的测试环境下得出的测试成绩,基本没有对比价值。
新一代飞腾八路服务器已超华为鲲鹏 国产ARM服务器CPU在高通等国际厂商宣布退出后,仅剩下天津飞腾、华为等为数不多的国产芯片企业在做持续的设计与开发,为此以国产IC公司作为主力军的ARM 服务器处理器的命运和前景,也受到中国IC产业的关注。 28日在2020年中国IC领袖峰会上,根据天津飞腾总经理窦强的介绍,基于飞腾最新一代多路服务器CPU,腾云S2500系列产品,最高单核主频为2.0~2.2Ghz,共有64个FTC663内核,可同时直连2~8路,支持到DDR4。 窦强表示,腾云S2500性能上已经与双路直连的华为鲲鹏旗鼓相当,而在八路上则已超过华为鲲鹏,是目前已经发布的国内最高性能ARM架构服务器芯片。在此之前飞腾还曾对外公布的ARM服务器CPU系列有采用16nm 4核的FT-2000/4、16nm 64核的FT-2000+/64和28nm 16核FT-1500A/16。面对未来的机遇风口,窦强认为,对于国产服务器厂商而言,万物互联与新基建的潮流下,5G和AI是不可缺席的机遇。 窦强认为,ARM服务器在受到了传统X86 CPU服务器的挤压下,在美国市场的商用机会逐渐暗淡,但在中国市场,由于受到自主可控、信息安全等市场的特别要求,中国芯片厂商自主研发的ARM服务器仍然还有较大的需求。 传统的服务器、桌面、嵌入式微处理器不断更新迭代,用户持续不断的新需求给厂商提出了更高的要求。未来,天津飞腾计划实现从端到云、按需定制、安全可信,提供未来万物互联时代从端到云所需的各种通用和专用计算算力,在此基础上根据不同的应用场景提供定制化服务。 窦强表示,5G时代,云计算对CPU提出新的要求和需求。未来,天津飞腾将在云服务器芯片这个方向上做进一步优化,加强芯片的单核性能,另外对虚拟化的性能进行持续优化,支持更强的包括SVE的向量计算能力,以及INT8、FP16这些面向机器学习和人工智能更加有效的计算固件。对于2020年的展望,窦强强调,飞腾将实现100万片的年销售量,并将团队规模扩充至1000人以上,同时完成两款FT内核的开发、新一代桌面CPU和chipset芯片的流片 以及持续推进下一代服务器芯片设计的开发。这也是飞腾耕耘通用CPU二十年来一个比较大的飞跃。
飞腾最新演讲视频总结 近日,飞腾在四川省中芯举办的国产芯片和os远程视频培训会上, 飞腾行业解决方案总监杨威,做了关于飞腾CPU的一个报告。 里面有一些值得关注的信息。 由于版主不允许发信创培训视频,我把视频中要点信息总结如下: 1、飞腾是自主可控处理器领域百分之百国资的国家队。 2、飞腾进入信创市场相对较晚,之前市占率在30%,今年预计可达50%。 3.、国务院发展研究中心2019年11月发布的白皮书,分析了目前信创市场各种指令集架构的情况。 a.信创市场的x86架构未来会被完全替换掉; b.alpha架构(Sw64)主要用在神威超算和某兵种的数据中心(wangjun),信创市场应用不多; c.龙芯的MIPS实际也是分期付款的架构授权,终究也是受制于人、受制于美国,MIPS被反复多次倒卖令人唏嘘。d.power架构,主要用于银行的小型机,未来一年左右就会被替换掉。 e.国内arm生态,华为是一致对外,飞腾是国家队,一主一背, 主导zzkk市场5~10的发展已经是逐渐显现的趋势。 从指令集来说大家都不是完全自主研发的,自主可控程度的评价是要求每一行代码都是自己写的。 4、指令集活跃度比较,比较linux发行版对各种指令集架构的支持,x86和arm64、powerpc所有发行版都支持,对其他架构支持越来越差,造成这些架构不得不自己维持一个庞大的团队,去维护linux内核对自己芯片架构的支持。 只能靠自己去维护庞大的生态。 6、已经有600多家软件厂家加入飞腾生态,6大类400多种整机产品,1000多种软件,形成了一个完整的生态体系。 7、测过ft1500a的用户都知道,spec、unixbench测试, 飞腾是前几年出来的几种国产cpu中性能最好的。而且,在数据库测试中性能是其他国产CPU的5~6倍。 8、行业应用,服务器都要求2路以上的CPU。FT2500支持2到8路,很快就会发布,双路性能和鲲鹏920基本一致 (我估计应该是指 华为主推的48核鲲鹏920 4826,也就是说spec int rate性能 大约在700分) 目前,2路的FT2500已经调试完毕,4路的FT2500已经成功启动操作系统正在继续调试优化。 9、飞腾对新4核FT2000/4 寄予厚望,发布半年多来 已经出货 50万片,飞腾是按100万片备货的。 基于FT2000/4 即将推出 无风扇 的超薄笔记本,飞腾已经成功在上面运行 windows(估计是win10arm), 飞腾自己的员工都在等这款超薄笔记本。有望在京东公开销售。 10、基于飞腾的云平台,包括腾讯政务云在内的几万台服务器级别的大型案例很多,云方面远远领先国内其他架构。 11、与电信合作,飞腾服务器进入5G核心网,应用在UPF、 DU、CU单元中。未来将为电信定制服务器CPU。 12、基于飞腾的台式机在:xc目录、j口目录、 bm目录、等等级目录,飞腾占据的份额愈来愈大,目前已经占据60~70%的份额。 13、飞腾生态发展极为迅速,2018年适配的软件厂家才60多家,到现在已经超过600家软件厂商适配飞腾。 14、安全设备(防火墙等),全部80多款产品,60%采用飞腾的架构,30%为X86,10%为MIPS。
飞腾—在四川创信培训上的报告 近日,飞腾在四川省中芯举办的国产芯片和os远程视频培训会上,做了关于飞腾CPU的一个报告。 里面有一些值得关注的信息。 为了方便没时间仔细观看视频的朋友,我把视频中要点信息总结如下: 1、飞腾是自主可控处理器领域百分之百国资的国家队。 2、飞腾进入信创市场相对较晚,之前市占率在30%,今年预计可达50%。 3.、国务院发展研究中心2019年11月发布的白皮书,分析了目前信创市场各种指令集架构的情况。 信创市场的x86架构未来会被完全替换掉;alpha架构(Sw64)主要用在神威超算和某兵种的数据中心(wangjun) 信创市场应用不多;龙芯的MIPS实际也是分期付款的架构授权,终究也是受制于人、受制于美国,MIPS被反复多次倒卖令人唏嘘。从指令集来说大家都不是完全自主研发的,自主可控程度的评价是要求每一行代码都是自己写的。国内arm生态,华为是一致对外,飞腾是国家队,一主一背,会主导zzkk市场5~10的发展。 4、指令集活跃度比较,比较linux发行版对各种指令集架构的支持,x86和arm64、powerpc所有发行版都支持,对其他架构支持越来越差,造成这些架构不得不自己维持一个庞大的团队,去维护linux内核对自己芯片架构的支持。 只能靠自己去维护庞大的生态。 6、已经有600多家软件厂家加入飞腾生态,6大类400多种整机产品,1000多种软件,形成了一个完整的生态体系。 7、测过ft1500a的用户都知道,spec、unixbench测试, 飞腾是前几年出来的几种国产cpu中性能最好的。而且,在数据库测试中性能是其他国产CPU的5~6倍。 8、行业应用,服务器都要求2路以上的CPU。FT2500支持2到8路,很快就会发布,双路性能和鲲鹏920基本一致(我估计应该是指 华为主推的48核鲲鹏920 4826,也就是说spec int rate性能 大约在700分) 目前,2路的FT2500已经调试完毕,4路的FT2500已经成功启动操作系统正在继续调试优化。 9、飞腾对新4核FT2000/4 寄予厚望,发布半年多来 已经出货 50万片,飞腾是按100万片备货的。 基于FT2000/4 即将推出 无风扇的超薄笔记本,飞腾已经成功在上面运行 windows(估计是win10arm),飞腾的员工都在等这款超薄笔记本。有望在京东公开销售。 10、基于飞腾的云平台,包括腾讯政务云在内的几万台服务器级别的大型案例很多,云方面远远领先国内其他架构。 11、与电信合作,飞腾服务器进入5G核心网,应用在UPF、 DU、CU单元中。未来将为电信定制服务器CPU。
龙芯之MIPS授权问题辨析 看来贴吧还是有那么一点影响力的,在本贴吧揭露龙芯长期蒙骗群众的所谓“买断MIPS”的谎话后,龙芯不得不在UOS开发者大会上把自己获取MIPS授权具体情况公布出来,承认自己是每五年续费一次,而以前龙芯的宣传口径都是所谓“买断MIPS授权”,从来没见过龙芯在公开场合或者公众媒体上提到过五年一续费的事情,所以龙芯“不老实” 这口锅是背稳了。 而所谓”“每5年续费一次,双方不需要重新谈判。协议不能提前终止,除非双方破产。”也是在打马虎眼, 不仔细分析一下又会被它蒙骗。 1、龙芯被迫承认每5年续费一次,但所谓“双方不需要重新谈判”,这个谈判所指的具体对象是啥?龙芯没有明确说明,但我们可以合理推断,肯定应该是龙芯已经获得的授权,因为如果是龙芯此前没有获得的授权,比如MIPS r6,那就不是“重新”谈判,而是“新的”谈判了。 所以,龙芯的这个授权协议跟华为飞腾获得的arm V8指令集授权是类似的,龙芯并不能自动获得r5以后的新版本的授权。 2、再来分析一下:“协议不能提前终止”。 这里的“提前”,是一个时间概念, 是相对正常的、不提前的时间节点而言的。那么这句话至少说明了,有一个时间节点,在此之后就不算提前。很明显这个时间节点就每5年续费的一个周期结束的时候。而所谓“协议不能提前终止”指的就是在这5年的周期内,比如第三年,按照次条款协议不能终止。 既然有“协议不能提前终止”的条款,那么就意味着:如果不提前,“协议可以终止”。 也就是说在5年续费周期结束的时候,MIPS有权结束协议! 3、而所谓“双方不需要重新谈判”,并不意味着MIPS在5年周期结束后一定继续授权龙芯,而只是说明如果mips同意继续授权,那么授权的具体协议照旧,无需再次谈判具体条款而已。
[转贴] 国产CPU:本是同根生,相煎何太急! 文章转帖自公、众、号:科技芯焦点 。 转帖此文,不代表本人认同或证实文中观点、陈述。 原创: 曰非曰 在郭嘉重大战略布局上,lx、FT、SW永远是最积极响应的,作为中国开展CPU研制工作最早的三家团队,经过二三十年的技术积累,目前已经具备相应能力来满足用户不同层次的需求: lx:来自于中科院体系,一直以“中国芯”的身份出现,也是产业化做的最早的公司,在市场上的熟识度较高。其MIPS架构同ARM架构一样属精简指令集,授权模式类似。龙芯根据指令集架构自己研制了基于不同自主内核的CPU产品,做到了自主、可控、可靠。但因指令集架构的小众,其产业生态的建设步履维艰,但目前也取得相当的成绩。截至目前,龙芯在信创领域的项目中参与较多。 FT:之前服务于较多涉密关键领域,指令集架构也几经变化,最后综合考量软硬件生态的问题,选择ARM架构。据目前全球的发展,ARM是和X86平分秋色的存在,且飞腾取得的是指令集架构永久授权,自己写微内核,做到自主、可控、可靠,业务覆盖较广。截止目前,飞腾在信创领域的项目中参与较多。 SW:若不是神威·太湖之光因为突然取得世界超算top500的NO.1,他会一直神秘下去。申威采用的是ALPHA(SW64),因指令集小众,且自成一体,自主、可控、可靠,业务目标主要瞄准安全密码领域,在具体信创产业布局上稍显滞后。不过,最近中国电科在上海举行了申威服务器首批量产下线仪式活动,以此开始申威CPU产业化。相信在不久之后,相关单位也将会陆续用到申威服务器,具体性能指标也将逐步公开,在信创领域申威也将会有更多的参与。
新华社:国产芯片火了! 新华社记者姜琳 龙头企业密集推出新产品、数千亿投资基金就位、概念股全面涨停……时值寒冬,国产芯片行业呈现出非同一般的火热,整个产业链引发市场高度关注。是“昙花一现”,还是“未来趋势”?记者进行了多方采访。 小小芯片有多火? 近日在北京国际会议中心召开的“2019飞腾生态伙伴大会”上,记者目睹了国产芯片之红火。会议尚未开始,会场已爆满。不仅座位异常密集,两侧及过道都站满了人。一位晚到的发言嘉宾甚至差点进不去场地。 “我们也没想到会这么火。”会议举办方天津飞腾信息技术有限公司总经理窦强告诉记者,“原本预估会议规模800人左右,后来仅网上报名就超过2500人。投资机构、行业用户、上下游合作伙伴等全来了。” 和其他几家国产CPU处理器龙头企业一样,飞腾早在20年前就开始自主研制芯片。近几年技术上大幅提升,但市场上大多服务于特定领域。2018年以来,市场需求明显提升,企业明显感受到未来行业高速扩张的势头。 “一年多来订单快速增长,咨询合作和投资的越来越多,有些产品供不应求。保守估计,未来我们年供货量会从几万片、几十万片增长到百万级。今年营收预计较去年增长超2倍,未来会保持高速增长,2024年我们力争实现年营收超过100亿元。”窦强说。
飞腾与龙芯的内存性能简单对比 posted @ 2019-08-25 17:33 济南小老虎 1. 使用的工具 mbw mbw使用了三种不同的方式进行了测试 : (1), 使用memcpy将一个数组复制到另一个数组 :Method: MEMCPY (2), 使用for循环将一个数组复制到另一个数组 : Method: DUMB (3), 使用mempcpy将一个块复制到一个数组 :Method: MCBLOCK AVG 为每一项的最终结果。 2.1 龙芯机器 [root@NeoKylin mbw]# ./mbw -b 4096 16Long uses 8 bytes. Allocating 2*2097152 elements = 33554432 bytes of memory. Using 4096 bytes as blocks for memcpy block copy test. Getting down to business... Doing 10 runs per test. 0 Method: MEMCPY Elapsed: 0.00831 MiB: 16.00000 Copy: 1925.855 MiB/s 1 Method: MEMCPY Elapsed: 0.00743 MiB: 16.00000 Copy: 2151.984 MiB/s 2 Method: MEMCPY Elapsed: 0.00725 MiB: 16.00000 Copy: 2207.810 MiB/s 3 Method: MEMCPY Elapsed: 0.00756 MiB: 16.00000 Copy: 2117.803 MiB/s 4 Method: MEMCPY Elapsed: 0.00696 MiB: 16.00000 Copy: 2299.511 MiB/s 5 Method: MEMCPY Elapsed: 0.00720 MiB: 16.00000 Copy: 2223.149 MiB/s 6 Method: MEMCPY Elapsed: 0.00668 MiB: 16.00000 Copy: 2394.851 MiB/s 7 Method: MEMCPY Elapsed: 0.00672 MiB: 16.00000 Copy: 2380.952 MiB/s 8 Method: MEMCPY Elapsed: 0.00683 MiB: 16.00000 Copy: 2341.235 MiB/s 9 Method: MEMCPY Elapsed: 0.00664 MiB: 16.00000 Copy: 2409.276 MiB/s AVG Method: MEMCPY Elapsed: 0.00716 MiB: 16.00000 Copy: 2235.386 MiB/s 0 Method: DUMB Elapsed: 0.05303 MiB: 16.00000 Copy: 301.722 MiB/s 1 Method: DUMB Elapsed: 0.05248 MiB: 16.00000 Copy: 304.901 MiB/s 2 Method: DUMB Elapsed: 0.05171 MiB: 16.00000 Copy: 309.442 MiB/s 3 Method: DUMB Elapsed: 0.05217 MiB: 16.00000 Copy: 306.719 MiB/s 4 Method: DUMB Elapsed: 0.05256 MiB: 16.00000 Copy: 304.420 MiB/s 5 Method: DUMB Elapsed: 0.05208 MiB: 16.00000 Copy: 307.237 MiB/s 6 Method: DUMB Elapsed: 0.05289 MiB: 16.00000 Copy: 302.509 MiB/s 7 Method: DUMB Elapsed: 0.05493 MiB: 16.00000 Copy: 291.269 MiB/s 8 Method: DUMB Elapsed: 0.05201 MiB: 16.00000 Copy: 307.604 MiB/s 9 Method: DUMB Elapsed: 0.05262 MiB: 16.00000 Copy: 304.044 MiB/s AVG Method: DUMB Elapsed: 0.05265 MiB: 16.00000 Copy: 303.909 MiB/s 0 Method: MCBLOCK Elapsed: 0.00740 MiB: 16.00000 Copy: 2161.578 MiB/s 1 Method: MCBLOCK Elapsed: 0.00699 MiB: 16.00000 Copy: 2289.639 MiB/s 2 Method: MCBLOCK Elapsed: 0.00716 MiB: 16.00000 Copy: 2234.325 MiB/s 3 Method: MCBLOCK Elapsed: 0.00697 MiB: 16.00000 Copy: 2294.894 MiB/s 4 Method: MCBLOCK Elapsed: 0.00663 MiB: 16.00000 Copy: 2412.909 MiB/s 5 Method: MCBLOCK Elapsed: 0.00689 MiB: 16.00000 Copy: 2321.195 MiB/s 6 Method: MCBLOCK Elapsed: 0.00651 MiB: 16.00000 Copy: 2456.248 MiB/s 7 Method: MCBLOCK Elapsed: 0.00710 MiB: 16.00000 Copy: 2252.252 MiB/s 8 Method: MCBLOCK Elapsed: 0.00658 MiB: 16.00000 Copy: 2432.350 MiB/s 9 Method: MCBLOCK Elapsed: 0.00673 MiB: 16.00000 Copy: 2376.355 MiB/s AVG Method: MCBLOCK Elapsed: 0.00690 MiB: 16.00000 Copy: 2319.647 MiB/s 2. 飞腾机器 root@lccy-2321321:~/lmbench3# mbw 16 -b 4096Long uses 8 bytes. Allocating 2*2097152 elements = 33554432 bytes of memory. Using 4096 bytes as blocks for memcpy block copy test. Getting down to business... Doing 10 runs per test. 0 Method: MEMCPY Elapsed: 0.00887 MiB: 16.00000 Copy: 1804.647 MiB/s 1 Method: MEMCPY Elapsed: 0.00837 MiB: 16.00000 Copy: 1911.817 MiB/s 2 Method: MEMCPY Elapsed: 0.00834 MiB: 16.00000 Copy: 1917.316 MiB/s 3 Method: MEMCPY Elapsed: 0.00836 MiB: 16.00000 Copy: 1914.563 MiB/s 4 Method: MEMCPY Elapsed: 0.00838 MiB: 16.00000 Copy: 1909.536 MiB/s 5 Method: MEMCPY Elapsed: 0.00837 MiB: 16.00000 Copy: 1911.817 MiB/s 6 Method: MEMCPY Elapsed: 0.00836 MiB: 16.00000 Copy: 1913.189 MiB/s 7 Method: MEMCPY Elapsed: 0.00835 MiB: 16.00000 Copy: 1915.479 MiB/s 8 Method: MEMCPY Elapsed: 0.00836 MiB: 16.00000 Copy: 1912.960 MiB/s 9 Method: MEMCPY Elapsed: 0.00831 MiB: 16.00000 Copy: 1924.233 MiB/s AVG Method: MEMCPY Elapsed: 0.00841 MiB: 16.00000 Copy: 1902.950 MiB/s 0 Method: DUMB Elapsed: 0.00824 MiB: 16.00000 Copy: 1941.983 MiB/s 1 Method: DUMB Elapsed: 0.00827 MiB: 16.00000 Copy: 1935.406 MiB/s 2 Method: DUMB Elapsed: 0.00831 MiB: 16.00000 Copy: 1926.086 MiB/s 3 Method: DUMB Elapsed: 0.00829 MiB: 16.00000 Copy: 1929.571 MiB/s 4 Method: DUMB Elapsed: 0.00826 MiB: 16.00000 Copy: 1936.577 MiB/s 5 Method: DUMB Elapsed: 0.00825 MiB: 16.00000 Copy: 1938.689 MiB/s 6 Method: DUMB Elapsed: 0.00825 MiB: 16.00000 Copy: 1940.335 MiB/s 7 Method: DUMB Elapsed: 0.00826 MiB: 16.00000 Copy: 1936.812 MiB/s 8 Method: DUMB Elapsed: 0.00829 MiB: 16.00000 Copy: 1929.803 MiB/s 9 Method: DUMB Elapsed: 0.00826 MiB: 16.00000 Copy: 1936.108 MiB/s AVG Method: DUMB Elapsed: 0.00827 MiB: 16.00000 Copy: 1935.125 MiB/s 0 Method: MCBLOCK Elapsed: 0.00198 MiB: 16.00000 Copy: 8060.453 MiB/s 1 Method: MCBLOCK Elapsed: 0.00198 MiB: 16.00000 Copy: 8084.891 MiB/s 2 Method: MCBLOCK Elapsed: 0.00196 MiB: 16.00000 Copy: 8167.432 MiB/s 3 Method: MCBLOCK Elapsed: 0.00196 MiB: 16.00000 Copy: 8146.640 MiB/s 4 Method: MCBLOCK Elapsed: 0.00202 MiB: 16.00000 Copy: 7916.873 MiB/s 5 Method: MCBLOCK Elapsed: 0.00204 MiB: 16.00000 Copy: 7839.294 MiB/s 6 Method: MCBLOCK Elapsed: 0.00198 MiB: 16.00000 Copy: 8068.583 MiB/s 7 Method: MCBLOCK Elapsed: 0.00198 MiB: 16.00000 Copy: 8068.583 MiB/s 8 Method: MCBLOCK Elapsed: 0.00196 MiB: 16.00000 Copy: 8163.265 MiB/s 9 Method: MCBLOCK Elapsed: 0.00197 MiB: 16.00000 Copy: 8134.215 MiB/s AVG Method: MCBLOCK Elapsed: 0.00198 MiB: 16.00000 Copy: 8063.703 MiB/s 由以上测试结果可知,除了第一项测试MEMCPY,龙芯略为领先飞腾外,剩下两项测试 DUMB、 MCBLOCK,飞腾都极大幅度领先龙芯(飞腾分别是龙芯的 6倍 和 4倍) 来源:www.cnblogs.com/jinanxiaolaohu/p/11408614.html
老帖重发:三大国产处理器评测及分析 江南计算技术研究所 高级工程师 程华(现已升任总师) 无锡江南计算机研究所总师程华 ,一直从事国产关键软硬件的评测和自主可控度评估工作。从2010年开始,8年以来,她每年都会将三大国产品牌的最新款处理器与国外芯片进行对比。 2017年10月27日,在中国计算机大会(CNCC2017)上,程华报告了对申威、飞腾、龙芯 三大国产处理器平台在2015和2017年两度专业测试 的结果及初步分析,并和英特尔奔腾4的测试结果进行了对比。 以下内容由程华总师演讲视频整理:对比方式:图中的柱状图每种颜色代表一个处理器厂商的产品,红绿黄都是国产cpu,蓝色为国外cpu。 最左边为申威411(2015年测试),同一颜色接下来的是申威1621(2017年测试)(2017年还在内测未正式发布)。 然后是飞腾1500A(2015年测试)和2017年测试的飞腾1500A,虽然硬件并未发生变化,但由于软件优化,测试性能有了明显提高。 再后面是龙芯3A2000(2015年测试)和3A3000(2017年测试)。 右边3列蓝色柱状图从左至右分别是 Intel P4处理器(补充:双核、主频3.2GHz )Intel, 2009年发布的 i5处理器,AMD E350 (2009年发布)。 首先对比的是 基础的综合性能,使用业界主流的测试套件:Unixbench。主要测字符、上下文切换、整数与浮点运算、管道存储能力等,此张ppt反映的是运行单线程Unixbench的情况,分值越高越好(柱状图越高越好)。它反映的是操作系统可以看到的处理器单核的性能。 从单线程性能来看,从2015年开始,每一款国产处理器都超过了P4,到2017年已经明显高于P4。同时可以看到,在2年时间里,3家国产处理器的单核性能提升都非常明显。上图为4核的性能对比上图为16核时的性能对比,因为这里有一个国产处理器厂商只有4核的芯片……。 图上仍然以P4的性能作为对比(最左边的蓝色柱状图)。上图为3个国产处理器2015年到2017年两年时间里,单核、4核、16核(无16核的处理器以4核叠加计算) 综合性能提升比率,可以看到黄色代表的厂商 其单核性能都已经翻倍了。(整理者补充:绿色代表的厂商性能提升最不明显,大概因为其处理器硬件并未更新换代,只是软件优化带来了一些性能提升)上图为细粒度的性能中,基本的双精度浮点 加 、乘、 除 运算时间,单位是纳秒,数值越小 成绩越好。 2015到2017年,3家的此项性能 都不如P4。这个测试与软件基本无关,主要反映处理器加法器乘法器等部件的设计水平。上图为上下文切换延迟性能, 单位是纳秒,数值越小越好。包括多线程和单线程上下文切换性能,3家处理器性能一直比P4好,我们分析国产处理器性能低从来不在上下文切换上。有两家2017年性能比2年期有所下降,是正常现象,因为性能是在做不断的平衡。此图为虚拟文件系统延迟,也是越低越好。此图为本地通信带宽,成绩是越大越好。通过管道 ……、通过标准Unix协议、 通过文件的重读内存的读和内存的写入来做通信。我们可以看到带宽这方面,国产处理器都远远的超过了P4。此图为内存的读写延迟,数值越小越好。图上第一项是L1cache延时,国产处理器都不如P4。第二项L2 cache读写延迟,国产处理器除黄色代表厂商外做得比P4好。后面两项为内存写入延迟和读取延迟。此图为磁盘写入性能。单位为kB每秒,数值越高越好。此图为磁盘读取性能,单位为kB每秒,数值越高越好。 磁盘读写性能是我们的长项,3家的国产处理器都远远的超过了P4,特别是有一家厂商(绿色代表厂商)在磁盘读取性上面(非常突出)……这张图片总结了3家处理器厂商在2015年到2017年两年时间里 细粒度性能的 涨幅,平均下来是2.4倍左右。此图为我们自己做的一个用户测试。我们老说 去比Spec CPU 国产处理器也不差呀,可是为什么用起来感觉好像慢呢?我们就做了一个userbench,方法是我们单位使用的国产处理器计算机平台,一个月以来让大家做一个使用情况的统计,比如做一个新word文档大家都一样的。我们做了Word文档,Ppt文档,Excel文档,一百次重启,文件压缩,点对点的文件拷贝,浏览器的使用 浏览ccs的网站……网站,就是平常常用的计算机操作。 图中最后一项就是所有测试加起来的时间,除以10(补充:用时越短越好)。从总时间来看,3家处理器,在2年时间里性能大概都只提高了20%左右,低于前面的硬件细粒度性能提升。原因主要是缺乏软件的配合,缺乏中间件的配合。此图为Trace分析,如打开word文档,看起来我们的cpu性能比P4好,为什么实际用起来还是比P4慢呢? 我们trace了性能数据,红色曲线是我们自己的国产处理器计算机平台,在打开文件的过程中,用户态和系统态所占的百分比,蓝色曲线是P4的。可以看到,在刚开始工作的时候,蓝色曲线比较高(P4)对系统资源的利用比较好,红色就弱一些。这个非常典型,实际3家国产处理器情况都差不多。这就说明软件的优化没有跟上…… 谢谢大家 整理者总结: 程华总师 (出于照顾面子的原因,因为3家厂商代表都参加了计算机大会),在演讲中没有明确指出红 、绿 、黄分别代表哪一家国产处理器厂商。但是演讲的上下文 对照图片,我们不难推断出: 红色代表申威,绿色代表飞腾,黄色代表龙芯。 从江南所所做的性能分析可以看出,无论单线程还是多线程综合性能 ,飞腾都明显领先,申威性能居中,龙芯忝陪末座。 用户实际使用测试结果,仍然是飞腾最强,但龙芯略为优于申威。原因大概是龙芯生态已经很烂了,申威的软件生态更弱。 来源:中国计算机学会, 数字图书馆 《三大国产处理器评测及分析》 演讲视频地址:https://tieba.baidu.com/p/5839106512?pid=121440886896&cid=0&red_tag=0512716996#121440886896
龙芯接受“核高基” 重大专项资助情况(公开资料分析) 下面我根据网上公开的资料,对截止2014年(之后没有公开)龙芯接受核高基资助情况,做一简单的回归总结。 以下信息都是个人从网上搜集后整理,错漏之处,敬请网友不吝赐教。 核高基重大专项,最早从2009年开始,网上有公开材料的一直到2014年。 有关高性能通用处理器的重大专项,涉及龙芯的从2009年开始就有至少2个,分别是: 国家核高基重大专项 “面向服务器/大规模科学计算的高性能多核CPU”,项目编号(2009ZX01028-002-xxx)[ 新型处理器结构研究的项目编号是(2009ZX01028-001-xxx)]; 国家核高基重大专项 “安全适用计算机研制与应用” ,项目编号 (2009ZX01029-001-xxx)。 这两个重大专项都给予了龙芯资助;第一项,龙芯的项目编号是(2009ZX01028-002-003) [2009ZX01028-002-001,2009ZX01028-002-002分别由总参56所和国防科大承担] ; 第二项,龙芯是项目编号是(2009ZX01029-001-002,2009ZX01029-001-003 ),两个项目分别是龙芯“安全适用计算机CPU” 和 “安全适用计算机推广应用”。 此09年的“核高基”项目,关于cpu部分,项目持续时间大致是09年开始到2012年结束。 2011年后,涉及高性能多核/众核CPU的重大专项有: “超高性能CPU新型架构研究” (2011ZX01028-001-xxx),接受该项目资助的单位有 : (2011ZX01028-001-001)国防科大 ,(2011ZX01028-001-002)中科院计算所体系结构国家重点实验室 “超级计算机处理器研发” (2013ZX01028-001-xxx),接受该项目资助的单位有:(2013ZX01028-001-001-001)56所,(2013ZX01028-001-001-002)国防科大 龙芯在2010年后继续接受资助的核高基项目有: “国产服务器操作系统在电子政务领域的推广应用” ,龙芯的项目编号 (2010ZX01036-001-002); “ 支持国产CPU的编译系统及工具链”,龙芯的项目编号(2010ZX01036-001-002); “国产64位软硬件的数控装置及其应用与推广” ,龙芯的项目编号 (2012ZX01029-001-002); “面向移动智能终端的高性能低功耗嵌入式CPU研发” ,龙芯的项目编号 (2014ZX01030101); “抗辐照CPU研发[项目名称存疑]” ,龙芯的项目编号(2014ZX01020201)。
申威转向RISC-V?参与发起中国RISC-V产业联盟 由上海芯原、芯来科技、上海赛昉科技(SiFive China)、上海高性能集成电路设计中心(申威)、杭州中天微、北京君正、兆易创新、致象尔微电子、乐鑫科技、时芯电子、展讯通信、地平线、晶晨半导体、华大半导体、格易电子、上海集成电路行业协会、上海物联网行业协会等单位共同发起的中国RISC-V产业联盟正式宣布成立,上海芯原担任联盟首任理事长单位。 实际上,以上很多联盟成员已经在推进RISC-V产业生态建设的路上 。 指令集是半导体芯片发展最重要的基础,对CPU运算进行指导和优化的硬程序。传统的大多数指令集架构,例如x86,ARM和MIPS等,通常属于某个公司所有,在获得专利授权前无法自由使用。RISC-V特色鲜明,目标是成为指令集架构领域的Linux。与大多数指令集相比,其最大特色就是开放和免费,通过将核心指令集以及其CPU设计的IP开源,很大程度上改变运算平台芯片的设计生态。 然而,相比ARM和英特尔x86,RISC-V现阶段的一大短板就是生态不完善。这并不是任何一家或几家企业能够做好,还需要持续的政策、人才、资金的大力支持,此次中国RISC-V产业联盟的成立,正是将全球最优质的资源集聚于此,大家共同发力,建立起一套基于全新指令集的生态系统,促进信息产业自主可控的发展。
(申威参与发起)中国RISC-V产业联盟在沪成立 由上海芯原、芯来科技、上海赛昉科技(SiFive China)、上海高性能集成电路设计中心、杭州中天微、北京君正、兆易创新、致象尔微电子、乐鑫科技、时芯电子、展讯通信、地平线、晶晨半导体、华大半导体、格易电子、上海集成电路行业协会、上海物联网行业协会等单位共同发起的中国RISC-V产业联盟正式宣布成立,上海芯原担任联盟首任理事长单位。 实际上,以上很多联盟成员已经在推进RISC-V产业生态建设的路上。 指令集是半导体芯片发展最重要的基础,对CPU运算进行指导和优化的硬程序。传统的大多数指令集架构,例如x86,ARM和MIPS等,通常属于某个公司所有,在获得专利授权前无法自由使用。RISC-V特色鲜明,目标是成为指令集架构领域的Linux。与大多数指令集相比,其最大特色就是开放和免费,通过将核心指令集以及其CPU设计的IP开源,很大程度上改变运算平台芯片的设计生态。 然而,相比ARM和英特尔x86,RISC-V现阶段的一大短板就是生态不完善。这并不是任何一家或几家企业能够做好,还需要持续的政策、人才、资金的大力支持,此次中国RISC-V产业联盟的成立,正是将全球最优质的资源集聚于此,大家共同发力,建立起一套基于全新指令集的生态系统,促进信息产业自主可控的发展。
密码算法性能(Openssl)测试性能对比:飞腾vs申威 FT1500A-4 (单核,包括SM2/SM3/SM4) 1.5Ghz 1 The 'numbers' are in 1000s of bytes per second processed. 2 type 16 bytes 64 bytes 256 bytes 1024 bytes 8192 bytes 3 md2 0.00 0.00 0.00 0.00 0.00 4 mdc2 0.00 0.00 0.00 0.00 0.00 5 md4 15135.49k 54699.16k 157732.44k 307936.60k 426825.05k 6 md5 12763.39k 42586.75k 110446.68k 187538.77k 235361.62k 7 hmac(md5) 12151.78k 41377.71k 109793.19k 185889.79k 235077.63k 8 sha1 12715.67k 41930.39k 100413.44k 157123.58k 187569.49k 9 rmd160 10788.69k 33493.42k 74574.51k 108126.89k 124559.36k 10 rc4 138604.84k 143156.95k 145253.38k 146560.34k 146915.33k 11 des cbc 30976.65k 32833.47k 33251.75k 33340.76k 33376.94k 12 des ede3 12198.75k 12395.24k 12442.20k 12464.47k 12468.22k 13 idea cbc 0.00 0.00 0.00 0.00 0.00 14 seed cbc 34303.63k 35765.85k 36084.91k 36252.33k 35957.42k 15 rc2 cbc 20562.17k 21847.96k 22142.12k 21927.59k 21951.83k 16 rc5-32/12 cbc 0.00 0.00 0.00 0.00 0.00 17 blowfish cbc 53236.89k 57363.22k 58331.14k 58602.84k 58272.43k 18 cast cbc 49132.90k 52182.40k 52953.00k 53155.16k 53253.46k 19 aes-128 cbc 64960.12k 72470.85k 75711.74k 76560.38k 76791.81k 20 aes-192 cbc 56942.73k 62618.26k 65020.25k 65657.86k 65858.22k 21 aes-256 cbc 50680.58k 55096.02k 56985.77k 57465.86k 56942.59k 22 camellia-128 cbc 52909.42k 57681.77k 59849.30k 60369.92k 60476.07k 23 camellia-192 cbc 41912.33k 44835.16k 46142.12k 46451.71k 46511.45k 24 camellia-256 cbc 41847.65k 44824.90k 46142.81k 46452.05k 46511.45k 25 sha256 13548.60k 35859.82k 69527.98k 91877.72k 101373.27k 26 sha512 8819.93k 35399.72k 70668.29k 112675.84k 136814.59k 27 whirlpool 7549.15k 15862.23k 26269.95k 31657.98k 33655.47k 28 aes-128 ige 63098.66k 70161.02k 72837.21k 73467.22k 72559.27k 29 aes-192 ige 55248.83k 60550.12k 62563.24k 63027.20k 62376.62k 30 aes-256 ige 49133.08k 53423.02k 54844.50k 55200.77k 54692.52k 31 ghash 97872.01k 101282.99k 105198.42k 106225.66k 106370.39k 32 sm4 cbc 32188.83k 34662.36k 35741.78k 36016.47k 36069.38k 33 sha384 8880.59k 35751.15k 71047.59k 112916.14k 136858.28k 34 sm3 8214.83k 19067.43k 33665.54k 41670.31k 44763.82k 35 sign verify genkey sign/s verify/s genkey/s 36 rsa 512 bits 0.000310s 0.000024s 0.011222s 3222.2 41125.8 89.1 37 rsa 1024 bits 0.001254s 0.000064s 0.050503s 797.3 15666.5 19.8 38 rsa 2048 bits 0.007407s 0.000192s 0.311818s 135.0 5212.6 3.2 39 rsa 4096 bits 0.045636s 0.000661s 11.880000s 21.9 1512.0 0.1 40 sign verify sign/s verify/s 41 dsa 512 bits 0.000284s 0.000266s 3522.5 3753.2 42 dsa 1024 bits 0.000679s 0.000711s 1472.2 1406.6 43 dsa 2048 bits 0.002030s 0.002210s 492.6 452.5 44 sign verify genkey sign/s verify/s genkey/s 45 160 bit ecdsa (secp160r1) 0.0003s 0.0012s 0.0010 3206.7 852.8 971.3 46 192 bit ecdsa (nistp192) 0.0003s 0.0013s 0.0010 2946.0 798.5 976.5 47 224 bit ecdsa (nistp224) 0.0004s 0.0017s 0.0014 2383.4 605.4 740.0 48 256 bit ecdsa (nistp256) 0.0005s 0.0018s 0.0015 2165.5 563.7 681.5 49 384 bit ecdsa (nistp384) 0.0008s 0.0034s 0.0028 1270.9 294.8 363.3 50 521 bit ecdsa (nistp521) 0.0012s 0.0059s 0.0048 809.4 168.5 207.7 51 163 bit ecdsa (nistk163) 0.0006s 0.0023s 0.0011 1582.7 436.7 871.7 52 233 bit ecdsa (nistk233) 0.0012s 0.0032s 0.0016 851.7 308.4 622.1 53 283 bit ecdsa (nistk283) 0.0019s 0.0068s 0.0033 530.1 148.0 299.8 54 409 bit ecdsa (nistk409) 0.0041s 0.0141s 0.0070 242.3 70.7 142.6 55 571 bit ecdsa (nistk571) 0.0089s 0.0302s 0.0150 111.9 33.1 66.8 56 163 bit ecdsa (nistb163) 0.0006s 0.0024s 0.0012 1583.6 413.5 829.6 57 233 bit ecdsa (nistb233) 0.0012s 0.0034s 0.0017 854.7 295.0 592.7 58 283 bit ecdsa (nistb283) 0.0019s 0.0073s 0.0036 530.2 137.2 277.8 59 409 bit ecdsa (nistb409) 0.0041s 0.0153s 0.0076 242.3 65.2 131.0 60 571 bit ecdsa (nistb571) 0.0089s 0.0332s 0.0165 111.8 30.1 60.5 61 256 bit ecdsa (sm2) 0.0004s 0.0019s 0.0016 2673.3 534.5 615.8 62 op op/s 63 160 bit ecdh (secp160r1) 0.0010s 1004.0 64 192 bit ecdh (nistp192) 0.0011s 946.1 65 224 bit ecdh (nistp224) 0.0014s 726.9 66 256 bit ecdh (nistp256) 0.0015s 662.9 67 384 bit ecdh (nistp384) 0.0028s 351.2 68 521 bit ecdh (nistp521) 0.0049s 202.4 69 163 bit ecdh (nistk163) 0.0011s 885.0 70 233 bit ecdh (nistk233) 0.0016s 630.0 71 283 bit ecdh (nistk283) 0.0033s 301.9 72 409 bit ecdh (nistk409) 0.0070s 142.2 73 571 bit ecdh (nistk571) 0.0150s 66.7 74 163 bit ecdh (nistb163) 0.0012s 834.2 75 233 bit ecdh (nistb233) 0.0017s 596.5 76 283 bit ecdh (nistb283) 0.0035s 282.6 77 409 bit ecdh (nistb409) 0.0076s 131.2 78 571 bit ecdh (nistb571) 0.0165s 60.4 79 256 bit ecdh (sm2) 0.0016s 616.3
三大国产处理器评测及分析 江南计算技术研究所 高级工程师 程华 无锡江南计算机研究所高级工程师程华 一直从事国产关键软硬件的评测和自主可控度评估工作。从2010年开始,8年以来,她每年都会将三大国产品牌的最新款处理器与国外芯片进行对比。 2017年10月27日,在中国计算机大会(CNCC2017)上,程华报告了对申威、飞腾、龙芯 三大国产处理器平台在2015和2017年两度专业测试 的结果及初步分析,并和英特尔奔腾4的测试结果进行了对比。对比方式:图中的柱状图每种颜色代表一个处理器厂商的产品,红绿黄都是国产cpu,蓝色为国外cpu。 最左边为申威411(2015年测试)同一颜色接下来的是申威1621(2017年测试)(2017年还在内测未正式发布)。 然后是飞腾1500A(2015年测试)和2017年测试的飞腾1500A,虽然硬件并未发生变化,但由于软件优化,测试性能有了明显提高。 再后面是龙芯3A2000(2015年测试)和3A3000(2017年测试)。 右边3列蓝色柱状图从左至右分别是 Intel P4处理器(补充:双核、主频3.2GHz )Intel, 2009年发布的 i5处理器,AMD E350 (2009年发布)。首先对比的是 基础的综合性能,使用业界主流的测试套件:Unixbench。主要测字符、上下文切换、整数与浮点运算、管道存储能力等, 此张ppt反映的是运行单线程Unixbench的情况,分值越高越好(柱状图越高越好)。它反映的是操作系统可以看到的处理器单核的性能。 从单线程性能来看,从2015年开始,每一款国产处理器都超过了P4,到2017年已经明显高于P4。同时可以看到,在2年时间里,3家国产处理器的单核性能提升都非常明显。此图为4核的性能对比此图为16核时的性能对比,因为这里有一个国产处理器厂商只有4核的芯片…… 图上仍然以P4的性能作为对比()最左边的蓝色柱状图)。此图为3个国产处理器2015年到2017年两年时间里,单核、4核、16核(无16核的处理器以4核叠加计算) 综合性能提升比率,可以看到黄色代表的厂商 其单核性能都已经翻倍了。<编者补充:绿色代表的厂商性能提升最不明显,大概因为其处理器硬件并未更新换代,只是软件优化带来了一些性能提升>此图为细粒度的性能中,基本的双精度浮点 加 、乘、 除 运算时间,单位是纳秒,数值越小 成绩越好。 2015到2017年,3家的此项性能 都不如P4。这个测试与软件基本无关,主要反映处理器加法器乘法器等部件的设计水平。此图为上下文切换延迟性能 单位是纳秒,数值越小越好。包括多线程和单线程上下文切换性能,3家处理器性能一直比P4好,我们分析国产处理器性能低从来不在上下文切换上。有两家2017年性能比2年期有所下降,是正常现象,因为性能是在做不断的平衡。此图为虚拟文件系统延迟,也是越低越好。此图为本地通信带宽,成绩是越大越好。通过管道 ……、通过标准Unix协议、 通过文件的重读内存的读和内存的写入来做通信。我们可以看到带宽,越大越好这方面国产处理器都远远的超过了P4。此图为内存的读写延迟,数值越小越好。图上第一项是L1cache延时,国产处理器都不如P4。第二项L2 cache读写延迟,国产处理器除黄色代表厂商外做得比P4好。后面两项为内存写入延迟和读取延迟。此图为磁盘写入性能。单位为kB每秒,数值越高越好。此图为磁盘读取性能,单位为kB每秒,数值越高越好。 磁盘读写性能是我们的长项,3家的国产处理器都远远的超过了P4,特别是有一家厂商(绿色代表厂商)在磁盘读取性上面(非常突出)……这张图片总结了3家处理器厂商在2015年到2017年两年时间里 细粒度性能的涨幅,平均下来是2.4左右。此图为我们自己做的一个用户测试。我们老说 去比Spec CPU 国产处理器也不差呀,可是为什么用起来感觉好像慢呢?我们就做了一个userbench,方法是我们单位使用的国产处理器计算机平台,一个月以来让大家做一个使用情况的统计,比如做一个新word文档大家都一样的。我们做了Word文档,Ppt文档,Excel文档,一百次重启,文件压缩,点对点的文件拷贝,浏览器的使用 浏览ccs的网站……网站,就是平常常用的计算机操作。 图中最后一项就是所有测试加起来的时间,除以10(补充:用时越短越好)。从总时间来看,3家处理器,在2年时间里性能大概都只提高了20%左右,低于前面的硬件细粒度性能提升。原因主要是缺乏软件的配合,缺乏中间件的配合。(补充:软件优化不到位)此图为Trace分析,如打开word文档,看起来我们的cpu性能比P4好,为什么实际用起来还是比P4慢呢? 我们trace了性能数据,红色曲线是我们自己的国产处理器计算机平台,在打开文件的过程中,用户态和系统态所占的百分比,蓝色曲线是P4的。可以看到,在刚开始工作的时候,蓝色曲线比较高(P4)对系统资源的利用比较好,红色就弱一些。这个非常典型,实际3家国产处理器情况都差不多。这就说明软件的优化没有跟上…… 谢谢大家 补充: 程华高工(或许出于照顾面子的原因,因为3家厂商代表都参加了计算机大会),在演讲中没有明确指出红 绿 黄分别代表哪一家国产处理器厂商。但是从演讲的上下文对照图片,我们不难推断出 红色代表申威,绿色代表飞腾,黄色代表龙芯。 从上面的性能分析可以看出,无论单线程还是多线程综合性能 飞腾都明显领先,申威性能居中,龙芯忝陪末座。 用户实际使用测试结果,仍然是飞腾最强,但龙芯反倒优于申威。原因大概是申威的软件生态还是比不过龙芯,优化不够。 当然龙芯也有亮点,就是在2年时间里,单线程综合性能提高了几乎一倍。 ppt来源 ,中国计算机学会, 数字图书馆 《三大国产处理器评测及分析》
三大国产处理器对比评测 三大国产处理器评测及分析 江南计算技术研究所 高级工程师 程华 无锡江南计算机研究所高级工程师程华一直从事国产关键软硬件的评测和自主可控度评估工作。从2010年开始,8年以来,她每年都会将三大国产品牌的最新款处理器与国外芯片进行对比。 在2017年10月27日的中国计算机大会(CNCC2017)上,程华报告了对申威、飞腾、龙芯 三大国产处理器平台在2015和2017年两度专业测试 的结果及初步分析,并和英特尔奔腾4双核处理器(主频3.2GHz)的测试结果进行了对比。对比方式:图中的柱状图每种颜色代表一个处理器厂商的产品,红绿黄都是国产cpu,蓝色为国外cpu。 最左边为申威411(2015年测试)同一颜色接下来的是申威1621(2017年测试)(2017年还在内测未正式发布)。 然后是飞腾1500A(2015年测试)和2017年测试的飞腾1500A,虽然硬件并未发生变化,但由于软件优化 测试性能有了明显提高。 再后面是龙芯3A2000(2015年测试)和3A3000(2017年测试) 右边3列蓝色柱状图从左至右分别是 Intel P4处理器(补充:双核、主频3.2GHz )Intel, 2009年发布的 i5处理器,AMD E350 (2009年发布)。首先对比的是基础的综合性能,使用业界主流的测试套件,Unixbench。主要测字符、上下文切换、整数与浮点运算、管道存储能力等, 此张ppt反映的是运行单线程Unixbench的情况,它的分值越高越好(柱状图越高越好)它反映的是操作系统可以看到的处理器单核的性能。 从单线程性能来看,从2015年开始每一款国产处理器都超过了P4,到2017年已经明显高于P4。同时可以看到,在2年时间里3家国产处理器的单核性能提升都非常明显。此图为4核的性能对比此图为16核时的性能对比,因为这里有一个国产处理器厂商只有4核的芯片…… 图上仍然以P4的性能作为对比(最左边的蓝色柱状图)。此图为3个国产处理器2015年到2017年两年时间里,单核、4核、16核(无16核的处理器以4核叠加计算) 提升比率,可以看到黄色代表的厂商其单核性能都已经翻倍了。,<补充:绿色代表的厂商性能提升最不明显,大概因为其处理器硬件并未更新换代,只是软件优化带来了一些性能提升>此图为细粒度的性能中,基本的双精度浮点 加 、乘、 除 运算时间,单位是纳秒,数值越小 成绩越好。 2015到2017年,3家的此项性能 都不如P4。这个测试与软件基本无关,主要反映处理器加法器乘法器等部件的设计水平。此图为上下文切换延迟性能 单位是纳秒,数值越小越好。包括多线程和单线程上下文切换性能,3家处理器性能一直比P4好,我们分析国产处理器性能低从来不在上下文切换上。有两家2017年性能比2年期有所下降,是正常现象,因为性能是在做不断的平衡。此图为虚拟文件系统延迟,也是越低越好。此图为本地通信带宽,成绩是越大越好。通过管道 ……、通过标准Unix协议、 通过文件的重读内存的读和内存的写入来做通信。我们可以看到带宽,越大越好这方面国产处理器都远远的超过了P4。此图为内存的读写延迟,数值越小越好。图上第一项是L1cache延时,国产处理器都不如P4。第二项L2 cache读写延迟,国产处理器除黄色代表厂商外做得比P4好。后面两项为内存写入延迟和读取延迟。此图为磁盘写入性能。单位为kB每秒,数值越高越好。此图为磁盘读取性能,单位为kB每秒,数值越高越好。 磁盘读写性能是我们的长项,3家的国产处理器都远远的超过了P4,特别是有一家厂商(绿色代表厂商)在磁盘读取性上面(非常突出)……这张图片总结了3家处理器厂商在2015年到2017年两年时间里 性能的涨幅,平均下来是2.4左右。此图为我们自己做的一个用户测试。我们老说去比Spec CPU 国产处理器也不差呀,可是为什么用起来感觉好像慢呢?我们就做了一个userbench,方法是我们单位使用的国产处理器计算机平台,一个月以来让大家做一个使用情况的统计,比如做一个新word文档大家都一样的。我们做了Word文档,Ppt文档,Excel文档,一百次重启,文件压缩,点对点的文件拷贝,浏览器的使用 浏览ccs的网站……网站,就是平常常用的计算机操作。 图中最后一项就是所以测试加起来的时间,除以10(补充:用时越短越好)。从总时间来看,3家处理器,在2年时间里性能大概都只提高了20%左右,低于前面的硬件细粒度性能提升。原因主要是缺乏软件的配合,缺乏中间件的配合。(补充:软件优化不到位)此图为Trace分析,如打开word文档,看起来我们的cpu性能比P4好,为什么实际用起来还是比P4慢呢? 我们trace了性能数据,红色曲线是我们自己的国产处理器计算机平台,在打开文件的过程中,用户态和系统态所占的百分比,蓝色曲线是P4的。可以看到,在刚开始工作的时候,蓝色曲线比较高(P4)对系统资源的利用比较好,红色就弱一些。这个非常典型,实际3家国产处理器情况都差不多。这就说明软件的优化没有跟上…… 谢谢大家 补充: 程华高工(或许出于照顾面子的原因,因为3家厂商代表都参加了计算机大会),在演讲中没有明确指出红 绿 黄分别代表哪一家国产处理器厂商。但是从演讲的上下文对照图片,我们不难推断出 红色代表申威,绿色代表飞腾,黄色代表龙芯。 从上面的性能分析可以看出,无论单线程还是多线程综合性能 飞腾都明显领先,申威性能居中,龙芯忝陪末座。 当然龙芯也有亮点,就是在2年时间里,性能提高了几乎一倍。
天河三号E级原型机系统 通过科技部验收 记者从国家超级计算天津中心获悉,由国防科技大学和国家超级计算天津中心等团队合作承担的“天河三号E级原型机系统”研制项目,经过两年多的持续关键技术攻关和突破,原型系统研制成功,在国家超级计算天津中心部署完成,于7月22日顺利通过国家科技部高技术中心组织的课题验收,将逐步进入开放应用阶段。   据了解,2016年国家科技部结合“十三五”发展规划,通过国家重点研发计划支持,开始分两期启动我国E级计算机研制计划。第一期主要为“E级计算机关键技术”研究,安排了三个E级机原型样机的研制;第二期为研制E机计算机。其中,“天河三号E级原型机系统”研制项目是我国首个完成原型样机系统研制和部署的项目。   通过几十年积累和不断的技术创新,“天河”超级计算机系统在核心关键技术上实现了整体自主可控。“天河三号原型机系统”全面搭载国产自主芯片,实现了可适应科学计算和数据处理多应用需求的柔性体系结构,可支持十万结点规模的高速互连和光电混合高速信号传输技术。在原型样机系统基础上,“天河三号”超级计算机最终有望于2020年研制成功,其运算能力将比“天河一号”提高200倍,存储容量提高100倍。   国家超级计算天津中心相关负责人表示,今后将依托“天河三号”超级计算机,构建超级计算与云计算和大数据深度融合的高性能计算服务平台,在长效高分辨率气候气象预报、大规模航空航天数值风洞、地震地质研究和油气能源勘探、生命科学研究等超大规模计算与模拟,以及涉及国计民生、信息安全的政务数据、医疗卫生、基因健康、智慧城市、交通、地理、海洋等大数据分析处理领域,发挥强大支撑和平台作用,有效推动新一代人工智能发展规划等实施和网络强国建设。
首页 1 2 3 下一页