黑子总拿正态分布来定义数据质量,但是正态分布和样本量强相关!
人类身高吧
全部回复
仅看楼主
吧务
level 16
渤海哥 楼主
数据转自新身高吧,
@飞机引擎直径却3米多
设该地区18岁男平均175标准差6,女平均162标准差5.5。不同规模随机取样直方图。
有的黑子总喜欢拿几万人样本的大学体测数据(再以各种理由篡改原始数据)绘制钟型正态分布,再以其他样本没有这么大的数据不符合正态分布为由,进行“打假”。比如北京理工附中,台北成渊中学,分性别500~600样本,样本规模接近图2,平滑性当然不可能像图3,图4一样。
这一点大家可能没有太关注,总结一下黑子的伎俩:用混有外地人的体测数据来黑某地身高、(尤其是黑山东,黑龙江等省),比如齐鲁工业大学,只有77%的本省户籍,哈尔滨工程大学只有19%本省户籍。再把数据论证为穿鞋,并且把平均2.5厘米左右的实增效果夸张到3厘米+。
除了大学体测,其他很多几百人样本的数据尽管测量严格,但是因为样本量不够海量,因此不可能像图3图4一样,所以“XX数据不符合正态分布,因此数据造假“这句话是典型的掩耳盗铃,阿Q心理。
2024年09月13日 04点09分 1
吧务
level 16
渤海哥 楼主
四个图的样本量分别为:
班级规模 vs 年级规模 vs 万级样本量 vs 十万级样本量
2024年09月13日 04点09分 2
@大明晓霞美娇 官网上有的,2018年学校体测
2024年09月27日 15点09分
2025年02月20日 03点02分
吧务
level 16
渤海哥 楼主
班级规模样本量的正态分布
2024年09月13日 05点09分 3
吧务
level 16
渤海哥 楼主
年级规模样本量的正态分布
2024年09月13日 05点09分 5
吧务
level 16
渤海哥 楼主
万人规模样本量的正态分布
2024年09月13日 05点09分 6
吧务
level 16
渤海哥 楼主
十万人规模样本量的正态分布
2024年09月13日 05点09分 7
吧务
level 14
正态分布和质量无关,都穿鞋,样本量大也符合正态分布,质量再,好样本量少,也不符合正态分布,所以正态分布不能作为质量好不好的标准
2024年09月13日 09点09分 8
吧务
level 16
渤海哥 楼主
2024年09月20日 08点09分 9
吧务
level 16
渤海哥 楼主
2024年12月17日 03点12分 13
吧务
level 16
渤海哥 楼主
2025年02月11日 18点02分 14
吧务
level 16
渤海哥 楼主
如果轻微的出现在170,175,180堆积,属于正常现象,因为人工读数会习惯性 往整数上看齐,比如180.1和179.9都很容易被读数成180.0(机器读数不会,无论是超声波还是电动轨道压头皮)
如果样本量可观,但是仍然在170.175.180等特殊特殊堆积特别严重,则最有可能的产生原因为数据非实测,而是自报。
因此,只要是机器读数,都不会出现数值堆积。
数据符合正态分布与否,样本量的充足是必要条件。一个测量严格的数据,如果样本量在一万以下,也不可能符合完美正态分布曲线。反之,一个完美符合正态分布的数据,也未必测量严格!
2025年02月19日 13点02分 18
吧务
level 16
渤海哥 楼主

2025年05月17日 05点05分 20
吧务
level 16
渤海哥 楼主

2025年08月18日 13点08分 21
1