带带带专🐭 -
关注数: 49 粉丝数: 79 发帖数: 1,933 关注贴吧数: 16
从团队的视角看rating 3.0 众所周知,rating的价值在于客观反映选手的贡献。在这种情况下,团队平均rating整体应该反映了队伍在一张地图中的表现水平。再进一步,队伍的平均rating相比对手越高,队伍在这张图上的表现(即获得的分数)相比于对手也应该越高。举一个简单但不准确的例子,如果我方rating是对方的1.5倍,那么我方拿的分数也应该接近对手的1.5倍。 因此,无论rating到底是否偏好某种类型的选手,一个检验rating合理性的方式是:在每张地图中,如果双方队伍的选手rating比更线性地符合双方得分之比,那这个rating从团队上来讲就更合理。为了进行这样的检验,我选取了rating 2.0 2.1和3.0并进行了上述分析。结论是:在团队的层面,rating 3.0相比rating 2.1和2.0,更好地反映了团队的整体表现。请注意,这不是在反驳突破手的困境或者小区防守者的利好,仅仅是提出一种评价rating的视角。 样本选取:CSGO安特卫普、里约、巴黎major,全部的淘汰赛地图,共计50张,rating 2.0为HLTV的公开数据 CS2哥本哈根、上海、奥斯汀major,全部的淘汰赛地图,并除去了败者得分不超过3的极端数据和奥斯汀major决赛的图二(蒙古13-4vitality),共计50张,以保持样本数的一致。rating 3.0为HLTV的公开数据,rating 2.1选取自完美APP,后者没有实时更新赛事的3.0数据而是保持了以前的rating 2.1。 统计方法:rating比例(Rating Ratio)为:队伍1的rating / (队伍1的rating+队伍2的rating), 得分比例(Score Ratio)为:队伍1的地图得分 / (队伍1的地图得分+队伍2的地图得分), 其中队伍1为HLTV赛事面板中靠左的队伍,队伍2是靠右的队伍。 分析方法:使用线性回归的均方误差(MSE)作为评价rating合理性的标准,如果某个rating的均方误差越低,说明rating比例和得分比例更加线性相关,进而这种rating更合理地反映了团队的整体表现。 结果:(其中x是Rating Ratio,y是Score Ratio) Rating 2.0: y = 1.4973x - 0.2588, MSE = 0.002006 Rating 2.1: y = 1.3685x - 0.2036, MSE = 0.002669 Rating 3.0: y = 1.6918x - 0.3515, MSE = 0.001460 在这样的结果下,至少在major淘汰赛的范围内,反映团队整体水平的合理性:rating 3.0 > rating 2.0 > rating 2.1。 同时值得注意的是,rating 3.0有最高的回归斜率,说明其产生的rating在团队的层面更加接近,而rating 2.1则相反。这里的“接近”是指在相同的比分下,胜者和败者具有更加接近的团队平均rating。 在平均rating方面,rating 2.0是1.0435,rating 2.1是1.0595,rating 3.0是1.0629。CS2 rating偏高的问题在3.0不仅没有改善,反而相比2.1更加严重。 线性回归的可视化如下图
澄清一些事实 这个吧内的风气之恶劣有甚于抗吧。所有人都在捕风捉影地攻击别人喜欢的选手和队伍,而最近科隆evp的出现更是最大化了部分ylg的攻击欲望,我在这里希望能够澄清一些事实,以免诸位攻击的时候出现错误。然而至于吧内风气的问题,不知为何吧务没有什么动作,所以我也不再置喙。 1. 小组赛evp的问题 很多人都发帖说过了,载物是先例。但载物和京介都配得上evp,如果有兴趣请翻看hltv的对应新闻和赛事数据。至于monesy在去年里约为什么连evp提名都没有,我认为这是野榜确实偏心了,尽管monesy地图太少,但至少应该有一个honorable mention。可能在当时野榜认为一个在当时“top1竞争的领先者”在里约双败回家是配不上evp的吧。 2. evp数量和比赛水平不成正相关 历来如此。规模越大的赛事(比如EPL)的evp通常越多,因为确实有更多表现出色的选手。经典的例子是2022年EPL S16有高达13个evp,但随后的BLAST世决,作为所谓的“超精赛事”,只有7个evp(这还是历史上evp最多的一次世决)。在年度评选中不同级别赛事的evp也会被分开评价。 3. CS2以来evp含金量越来越高 确实如此。但以往的evp并非在top评选中没有作用。在野榜评价21森的时候,用来形容他稳定性的并非低阶数据,而是“在他参加的每个赛事中,都至少拿到了evp”,可见evp在go时期并非安慰奖。 4. 野榜定制数据(不限于evp) 历来如此。按我的理解,野榜是一群专业的分析师看过比赛和基础数据后,再根据他们的eyetest挖掘更深入的数据(实际上如果没有eyetest的提示,这些数据根本不会有人统计,所以也像是因为评选而定制的数据),并经过这些数据确认eyetest的客观性。举个例子,在2022年,载物超过shiro拿下top2的重要原因是shiro“未取得击杀但获得胜利的回合比例”是42.1%,远高于载物的36.7%。这一数据不仅在22年之前鲜有提及,在现在更是完全无人提起,远比“场馆rating”冷门。但在22年的top评选中,我认为这是合理的,因为当年的比赛看下来,队伍的胜利确实更依赖top4的阿乐而非shiro,后者在保枪中收获了太多的数据,而小蜜蜂基本上没了载物剩下四个人就不会玩了,所以载物更加出色。这算是定制数据吗?当然算。这样的数据合理吗?至少我和野榜都认为合理。 在2023年以前,哪怕是臭名昭著的“森孝泛滥”的2021年,基本上没有观众会因为一个选手的荣誉吵起来,所谓的森载大战也只停留在大家对互相的胜负和对位击杀的热衷上,远远没有达到攻击对方选手和粉丝的程度。最纯粹的森孝也不会用电子哥拉踩niko,最纯粹的载孝(当时载物粉丝可能有一些,但孝子其实真没多少)也不会试图剥夺18年的top1。对于野榜的争议评选,也没人天天把偷字挂在嘴上。短短三年,国内的cs社区成了这个样子。 附图是22年的top2评选理由
1 下一页