看看中国足球到底是亚洲第几流？ - 高洪波吧

level 11

viko35 楼主

http://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html

2016年05月16日 04点05分 1

level 13

阿💧卜🔥杜拉✨

？？？？？？？？？？？？？？

2016年05月16日 08点05分 2

level 11

viko35 楼主

K-means算法及其示例
k均值算法的计算过程非常直观：
1、从D中随机取k个元素，作为k个簇的各自的中心。
2、分别计算剩下的元素到k个簇中心的相异度，将这些元素分别划归到相异度最低的簇。
3、根据聚类结果，重新计算k个簇各自的中心，计算方法是取簇中所有元素各自维度的算术平均数。
4、将D中全部元素按照新的中心重新聚类。
5、重复第4步，直到聚类结果不再变化。
6、将结果输出。
由于算法比较直观，没有什么可以过多讲解的。下面，我们来看看k-means算法一个有趣的应用示例：中国男足近几年到底在亚洲处于几流水平？
今年中国男足可算是杯具到家了，几乎到了过街老鼠人人喊打的地步。对于目前中国男足在亚洲的地位，各方也是各执一词，有人说中国男足亚洲二流，有人说三流，还有人说根本不入流，更有人说其实不比日韩差多少，是亚洲一流。既然争论不能解决问题，我们就让数据告诉我们结果吧。
下图是我采集的亚洲15只球队在2005年-2010年间大型杯赛的战绩（由于澳大利亚是后来加入亚足联的，所以这里没有收录）。

2016年05月16日 08点05分 4

level 11

viko35 楼主

2016年05月16日 08点05分 5

level 11

viko35 楼主

其中包括两次世界杯和一次亚洲杯。我提前对数据做了如下预处理：对于世界杯，进入
决赛圈
则取其最终排名，没有进入决赛圈的，打入预选赛十强赛赋予40，预选赛小组未出线的赋予50。对于亚洲杯，前四名取其排名，八强赋予5，十六强赋予9，预选赛没出现的赋予17。这样做是为了使得所有数据变为标量，便于后续聚类。
下面先对数据进行[0,1]规格化，下面是规格化后的数据：

2016年05月16日 08点05分 6

level 11

viko35 楼主

2016年05月16日 08点05分 7

level 11

viko35 楼主

2016年05月16日 08点05分 9

level 11

viko35 楼主

2016年05月16日 08点05分 11

level 11

viko35 楼主

第二次迭代后的结果为：
中国C，日本A，韩国A，伊朗A，沙特A，伊拉克C，卡塔尔C，阿联酋C，乌兹别克斯坦B，泰国C，越南C，阿曼C，巴林B，朝鲜B，印尼C。
结果无变化，说明结果已收敛，于是给出最终聚类结果：
亚洲一流：日本，韩国，伊朗，沙特
亚洲二流：乌兹别克斯坦，巴林，朝鲜
亚洲三流：中国，伊拉克，卡塔尔，阿联酋，泰国，越南，阿曼，印尼
看来数据告诉我们，说国足近几年处在亚洲三流水平真的是没有冤枉他们，至少从国际杯赛战绩是这样的。
其实上面的分析数据不仅告诉了我们聚类信息，还提供了一些其它有趣的信息，例如从中可以定量分析出各个球队之间的差距，例如，在亚洲一流队伍中，日本与沙特水平最接近，而伊朗则相距他们较远，这也和近几年伊朗没落的实际相符。另外，乌兹别克斯坦和巴林虽然没有打进近两届世界杯，不过凭借预算赛和亚洲杯上的出色表现占据B组一席之地，而朝鲜由于打入了2010世界杯决赛圈而有幸进入B组，可是同样奇迹般夺得2007年亚洲杯的伊拉克却被分在三流，看来亚洲杯冠军的分量还不如打进世界杯决赛圈重啊。其它有趣的信息，有兴趣的朋友可以进一步挖掘。

2016年05月16日 08点05分 12

level 8

artzj81

国足其实是亚洲二流，就是经常被足协这个节点拉低分数。

2016年05月17日 10点05分 13

level 1

chenxia1987303

很好算啊。去数一下亚洲总共有几个国家就行。

2016年11月22日 08点11分 14