基础篇数据挖掘的聚类算法和优势

发布时间：2020年09月30日 04:11:34 来源：点击量：730

【摘要】基础篇：数据挖掘的聚类算法和优势比较分类算法的话，大概考虑这几个维度：时间空间复杂度，鲁棒性，参数敏感性，处理不规则形状，适合的类

基础篇：数据挖掘的聚类算法和优势

比较分类算法的话，大概考虑这几个维度：时间空间复杂度，鲁棒性，参数敏感性，处理不规则形状，适合的类数量，类间差异（范围大小，样本个数，形状差异）

可以参照一下sklearn网站给出的列表：2.3. Clustering

除了这些聚类方法以外，统计老师讲过一些传统的聚类方法，归属于系统聚类的范畴，先定义观测间的距离和类之间的距离计算方法，然后按照距离把最接近的两个观测（类）合并，直到合并成一个大类为止。

最短距离法：

类间距为两类中最近观测的距离。
不限制类形状，对拉长的分布效果好，会删除边缘的观测点

最长距离法：

类间距为两类中最远观测的距离。
倾向于产生直径相等的类，易受异常值影响。

中间距离法：

类间距为最长距、最短距、类内距离的加权。

重心法：

类间距为两类重心之间的距离
对奇异值稳健

类平均法：

类间距为两类观测之间距离的平均值。
倾向于先合并方差小的类，偏向于产生方差相同的类。

离差平方和法：

将合并后类内方差最小的两类合并
倾向于产生数量相等的两类，对异常值敏感

密度估计：

较远的距离设为无穷。较近的两个样本，距离与局部密度成反比。
适用于不规则形状类，不适用样本数太少。

两阶段密度估计：

用密度估计计算距离，再用最短距离法聚类。
普适性较强

除了以上这些常见方法，值得一提的是去年发在science上的算法 fast search and find of density peaks. 这个方法克服了DBSCAN中不同类的密度差别大，邻域范围难以设定的问题，非常鲁棒，看起来棒棒的。

ps：如果希望聚的效果好，距离度量方法有时候比聚类方法更重要。

分享到：编辑：wangmin

上一篇：excel表格基本操作之从零开始学习下一篇：大数据如何改变旅游行业

一节课掌握AI办公提效神器

数据分析师 1次课共1小时

高老师

1156人已报名

免费

体验课

Excel常用技巧助你高效办公

数据分析师 3次课共3小时

张玮

火热报名中

¥29

职场数据分析训练营-办公效率班

数据分析师 40次课共30小时

曹峥

火热报名中

¥2299

就业培训申请领取

您的姓名

您的电话

意向课程

点击领取

环球青藤

官方QQ群

扫描上方二维码或点击一键加群，免费领取大礼包，加群暗号：青藤。一键加群

数据分析师相关文章推荐

数据分析师最新文章推荐

免费直播更多

应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

预约成功

本直播为付费学员的直播课节

请您购买课程后再预约

我要购买

最新文章

环球青藤移动课堂APP 直播、听课。职达未来！

安卓版

下载

iPhone版

下载

环球青藤官方微信服务平台

刷题看课 APP下载

免费直播一键购课

代报名等人工服务

数据分析师热点排行

基础篇数据挖掘的聚类算法和优势

就业培训申请领取

数据分析师相关文章推荐

数据分析师最新文章推荐

绑定手机号

注册账号

环球青藤用户注册

基础篇 数据挖掘的聚类算法和优势

就业培训申请领取

数据分析师相关文章推荐

数据分析师最新文章推荐

绑定手机号

注册账号

环球青藤用户注册

欢迎登陆环球青藤

基础篇数据挖掘的聚类算法和优势