当前位置: 首页 > 数据分析师 > 数据分析师实战技能 > 数据分析师数据分析 > 数据挖掘 聚类算法概述

数据挖掘 聚类算法概述

发布时间:2020年09月29日 11:20:41 来源: 点击量:505

【摘要】文|宿痕 来源|知乎 本篇重点介绍聚类算法的原理,应用流程、使用技巧、评估方法、应用案例等。具体的算法细节可以多查阅相关的资料。聚类


文 | 宿痕

来源 | 知乎

本篇重点介绍聚类算法的原理,应用流程、使用技巧、评估方法、应用案例等。具体的算法细节可以多查阅相关的资料。聚类的主要用途就是客户分群。

1.聚类 VS 分类

分类是“监督学习”,事先知道有哪些类别可以分。

 

 

聚类是“无监督学习”,事先不知道将要分成哪些类。

 

 

举个例子,比如苹果、香蕉、猕猴桃、手机、电话机。

根据特征的不同,我们聚类会分为【苹果、香蕉、猕猴桃】为水果的一类,和【手机、电话机】为数码产品的一类。

而分类的话,就是我们在判断“草莓”的时候,把它归为“水果”一类。

所以通俗的解释就是:分类是从训练集学习对数据的判断能力,再去做未知数据的分类判断;而聚类就是把相似的东西分为一类,它不需要训练数据进行学习。

学术解释:分类是指分析数据库中的一组对象,找出其共同属性。然后根据分类模型,把它们划分为不同的类别。分类数据首先根据训练数据建立分类模型,然后根据这些分类描述分类数据库中的测试数据或产生更恰当的描述。

聚类是指数据库中的数据可以划分为一系列有意义的子集,即类。在同一类别中,个体之间的距离较小,而不同类别上的个体之间的距离偏大。聚类分析通常称为“无监督学习”。

2.聚类的常见应用

我们在实际情况的中的应用会有:

marketing:客户分群

insurance:寻找汽车保险高索赔客户群

urban planning:寻找相同类型的房产

比如你做买家分析、卖家分析时,一定会听到客户分群的概念,用标准分为高价值客户、一般价值客户和潜在用户等,对于不同价值的客户提供不同的营销方案;

 

 

还有像在保险公司,那些高索赔的客户是保险公司最care的问题,这个就是影响到保险公司的盈利问题;

还有在做房产的时候,根据房产的地理位置、价格、周边设施等情况聚类热房产区域和冷房产区域。

 

3.k-means

(1)假定K个clusters(2)目标:寻找紧致的聚类

a.随机初始化clusters

 

 

b.分配数据到最近的cluster

 

 

c.重复计算clusters

 

d.repeat直到收敛

 

优点:局部最优

缺点:对于非凸的cluster有问题

其中K=?

K<=sample size

取决于数据的分布和期望的resolution

AIC,DIC

层次聚类避免了这个问题

4.评估聚类

鲁棒性?

聚类如何,是否过度聚合?

很多时候是取决于聚合后要干什么。

5.case案例

case 1:卖家分群云图

 

 

作者:宿痕 授权转载

原文链接:http://zhuanlan.zhihu.com/dataman/20397891

 

分享到: 编辑:wangmin

就业培训申请领取
您的姓名
您的电话
意向课程
点击领取

环球青藤

官方QQ

扫描上方二维码或点击一键加群,免费领取大礼包,加群暗号:青藤。 一键加群

绑定手机号

应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

预约成功

本直播为付费学员的直播课节

请您购买课程后再预约

环球青藤移动课堂APP 直播、听课。职达未来!

安卓版

下载

iPhone版

下载
环球青藤官方微信服务平台

刷题看课 APP下载

免费直播 一键购课

代报名等人工服务

课程咨询 学员服务 公众号

扫描关注微信公众号

APP

扫描下载APP

返回顶部