IBM SPSS Statistics中分层聚类法的实际应用

时间：02-01来源：作者：点击数：

IBM SPSS Statistics中的分层聚类法，也称作系统聚类法，是按照度量数据距离的远近，对预先设定的分类范围进行聚类的分析方法。其优点是可设定分类的范围、可处理分类变量与连续变量、可选择的数据距离计算方法多等。

但需要注意的是，分层聚类法无法同时处理两种变量类型，即单次分析只能在同一种变量类型中进行。接下来，我们通过实例具体演示下操作方法。

一、数据准备

本文使用到的是一组包含连续变量（销售额、销售量等）与分类变量（店铺类型、星级等）的店铺数据。

图1：店铺数据

二、系统聚类参数设置

如图2所示，依次打开SPSS的分类-系统聚类分析。

图2：系统聚类

如图3所示，SPSS的系统聚类可进行个案与变量的聚类分析。本例选择个案的系统聚类分析。

图3：设置面板

系统聚类单次只可分析一种变量类型，如图4所示，本例进行的是客流量、销售额、销售量的连续型变量系统聚类分析，以账号作为标注依据。

图4：变量设置

在统计设置中，如图5所示，勾选“解的范围”，并将范围设定为2-5。

图5：统计设置

在图设置中，勾选“谱系图”选项，以观察聚类的过程。

图6：图设置

在计算方法中，根据连续变量使用欧氏距离法，分类变量使用计数型卡方测量法的原则，设置区间的平方欧式距离法。

图7：方法设置

最后，在保存设置中，保存“解的范围”，以在数据表中生成解范围的新变量。

图8：解的范围

三、结果解读

运行分析后，返回到数据集，如图9所示，在原数据集的末端生成了新的变量，分别展示的是解在2-5范围时，个案所属的聚类。

图9：生成新变量

本次系统聚类分析了23个个案，从集中计划表看到，在第5阶段，15与16聚合为一类，15在第4个阶段中出现了，16则是第一次出现，因此在聚类中分别记为“4”与“0”。

在进行22个阶段后，所有个案完成聚类。

图10：集中计划

如图11所示，在谱系图中画红色竖线并向左观察，可将个案分为三大类。当然，也可以移动红色竖线，将个案分为两大类、四大类、五大类，并观察其个案的组成。

图11：谱系图

四、小结

综上所述，SPSS分层聚类分析可进行连续型与分类型变量的聚类分析，并设定解的范围，使得数据在预设的范围内进行聚类。

但另一方面来说，分层聚类主要是依靠图形，如谱系图进行聚类结果的输出，因此，如果个案数目过大，将不利于结果的观察。

方便获取更多学习、工作、生活信息请关注本站微信公众号 城东书院微信服务号

Calibre – 一站式电	新手火腿必看！超详细的
图解 \| 原来这就是TCP	图解 \| 原来这就是网