数据挖掘聚类算法概述

发布时间：2020年09月29日 11:20:41 来源：点击量：533

【摘要】文|宿痕来源|知乎本篇重点介绍聚类算法的原理，应用流程、使用技巧、评估方法、应用案例等。具体的算法细节可以多查阅相关的资料。聚类

文 | 宿痕

来源 | 知乎

本篇重点介绍聚类算法的原理，应用流程、使用技巧、评估方法、应用案例等。具体的算法细节可以多查阅相关的资料。聚类的主要用途就是客户分群。

1.聚类 VS 分类

分类是“监督学习”，事先知道有哪些类别可以分。

聚类是“无监督学习”，事先不知道将要分成哪些类。

举个例子，比如苹果、香蕉、猕猴桃、手机、电话机。

根据特征的不同，我们聚类会分为【苹果、香蕉、猕猴桃】为水果的一类，和【手机、电话机】为数码产品的一类。

而分类的话，就是我们在判断“草莓”的时候，把它归为“水果”一类。

所以通俗的解释就是：分类是从训练集学习对数据的判断能力，再去做未知数据的分类判断；而聚类就是把相似的东西分为一类，它不需要训练数据进行学习。

学术解释：分类是指分析数据库中的一组对象，找出其共同属性。然后根据分类模型，把它们划分为不同的类别。分类数据首先根据训练数据建立分类模型，然后根据这些分类描述分类数据库中的测试数据或产生更恰当的描述。

聚类是指数据库中的数据可以划分为一系列有意义的子集，即类。在同一类别中，个体之间的距离较小，而不同类别上的个体之间的距离偏大。聚类分析通常称为“无监督学习”。

2.聚类的常见应用

我们在实际情况的中的应用会有：

marketing：客户分群

insurance：寻找汽车保险高索赔客户群

urban planning：寻找相同类型的房产

比如你做买家分析、卖家分析时，一定会听到客户分群的概念，用标准分为高价值客户、一般价值客户和潜在用户等，对于不同价值的客户提供不同的营销方案；

还有像在保险公司，那些高索赔的客户是保险公司最care的问题，这个就是影响到保险公司的盈利问题；

还有在做房产的时候，根据房产的地理位置、价格、周边设施等情况聚类热房产区域和冷房产区域。

3.k-means

（1）假定K个clusters（2）目标：寻找紧致的聚类

a.随机初始化clusters

b.分配数据到最近的cluster

c.重复计算clusters

d.repeat直到收敛

优点：局部最优

缺点：对于非凸的cluster有问题

其中K=？

K<=sample size

取决于数据的分布和期望的resolution

AIC，DIC

层次聚类避免了这个问题

4.评估聚类

鲁棒性？

聚类如何，是否过度聚合？

很多时候是取决于聚合后要干什么。

5.case案例

case 1：卖家分群云图

作者：宿痕授权转载

原文链接：http：//zhuanlan.zhihu.com/dataman/20397891

分享到：编辑：wangmin

上一篇：excel表格基本操作之从零开始学习下一篇：大数据概念史上最全大数据解析

VBA实战速成：从零到一的突破

数据分析师 62次课共11小时

吴开斌

火热报名中

¥1299

WPS高效数据管理

数据分析师 17次课共4小时

王忠超

火热报名中

¥1299

Fine BI 商业智能数据分析

数据分析师 27次课共6小时

王忠超

火热报名中

¥1299

就业培训申请领取

您的姓名

您的电话

意向课程

点击领取

环球青藤

官方QQ群

扫描上方二维码或点击一键加群，免费领取大礼包，加群暗号：青藤。一键加群

数据分析师相关文章推荐

数据分析师最新文章推荐

免费直播更多

应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

预约成功

本直播为付费学员的直播课节

请您购买课程后再预约

我要购买

最新文章

环球青藤移动课堂APP 直播、听课。职达未来！

安卓版

下载

iPhone版

下载

环球青藤官方微信服务平台

刷题看课 APP下载

免费直播一键购课

代报名等人工服务

数据分析师热点排行

数据挖掘 聚类算法概述

就业培训申请领取

数据分析师相关文章推荐

数据分析师最新文章推荐

绑定手机号

数据挖掘聚类算法概述