当前位置: 首页 > 数据分析师 > 数据分析师实战技能 > 数据分析师数据分析 > 打破数据统一的七大原则

打破数据统一的七大原则

发布时间:2020年09月29日 02:57:25 来源: 点击量:331

【摘要】打破数据统一的七大原则数据统一在数据分析领域里是个长期的挑战,从事数据分析的从业者希望在数据分析之前,来自不同实体的数据能够在同一

打破数据统一的七大原则

数据统一在数据分析领域里是个长期的挑战,从事数据分析的从业者希望在数据分析之前,来自不同实体的数据能够在同一个地方呈现出来。数据统一由七部分组成:1、获取数据 2、清洗数据 3、转换数据、4、模式集成 5、重复数据删除、6、分类 7、导出。


  一般而言,企业实现数统一有两种方法,提取转换加载(ETL)和主数据管理(MDM)。  提取转换加载(ETL)具有灵活性的优势,适合不同的数据来源,使程序员可以手工编写转换程序,能够确保源数据模式与集中式数据仓库项目采用的全局模式匹配。但由于自动化程度低,提取转换加载带宽能超过20个数据源没有多少家公司。  主数据管理(MDM),它与ETL类似的地方在于,预设一个“主记录”,每一个有专门的类别选项。如客户、部件和供应商等的所有文件符合主记录格式。但和ETL有所区别的是,MOM不是使用手动的定制脚本,而是依靠一套“模糊合并”规则,把所有不同的文件转换成主格式。  可难解的是,在数据量过大的情况下,不管是ETL还是MDM,都无法解决数据统一难题。加上大数据集的庞大规模以及对程序员的苛刻要求任何的可规模化数据统一项目都必须在很大程度上实现自动化,不能依靠手动编写的程序。  着名计算机科学家、Tamr联合创始人兼首席技术官迈克尔·斯通布雷克(Michael Stonebraker)针对数据统一存在的限制难题,提出数据统一的七条原则:  一、所有的可规模化系统,都必须自动进行绝大多数的操作。  二、模式为先(schema-first)的产品永远无法规模化。唯一的选择是采用‘模式为后’(schema-last)的产品。  三、需要进行具体的域操作时,只有协作性的系统才可实现规模化。  四、为了实现可规模化,任何的统一计算必须在多个核心和多个处理器上运行。  五、尽管存在第四条原则,但真正的可扩展应用需要复杂性低于N ** 2的并行算法。  六、规则系统实现是无法规模化的。只有机器学习系统才能将规模扩展到大公司所需要的程度。  七、必须支持实时增量统一。

分享到: 编辑:wangmin

就业培训申请领取
您的姓名
您的电话
意向课程
点击领取

环球青藤

官方QQ

扫描上方二维码或点击一键加群,免费领取大礼包,加群暗号:青藤。 一键加群

绑定手机号

应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

预约成功

本直播为付费学员的直播课节

请您购买课程后再预约

环球青藤移动课堂APP 直播、听课。职达未来!

安卓版

下载

iPhone版

下载
环球青藤官方微信服务平台

刷题看课 APP下载

免费直播 一键购课

代报名等人工服务

课程咨询 学员服务 公众号

扫描关注微信公众号

APP

扫描下载APP

返回顶部