当前位置: 首页 > 数据分析师 > 数据分析师实战技能 > 数据分析师数据提取 > 如何保证从数据仓库取出的数据质量?

如何保证从数据仓库取出的数据质量?

发布时间:2020年09月29日 07:45:50 来源:环球青藤 点击量:998

【摘要】在数据分析工作中,大家往往会比较重视数据清洗,数据统计和特征构建这些所谓的高级工作,而比较容易忽略数据获取这个环节。那么,从仓库获取的数据,我们该如何保证这些数据的质量呢?今天就跟随小编一起来了解下吧!

一、了解数据仓库的表

在接到一个数据分析的任务时,第一件时间就是找到相关数据的负责人,拿到存储数据的表和文档。一般金融公司会有几个部门:DEV、DE、BI、DS。作为DS的建模人员,去问谁才能获得最准确的信息呢?

这里大部分人会选择问DS内部的同事或者BI,因为都是做数据分析,大家也比较熟悉。但事实上,DS和BI都不是数据质量负责的人;很多时候,数据表的变动他们是不清楚的,询问他们大概率拿到的信息都不能保证权威性。在初步了解一个数据的时候,作为DS,其实最佳的询问对象是DE。因为DE是负责把DEV做的生产数据库的表拉到数据仓库,并构建数仓表的负责人,他们对表的结构和数据的变动是最有发言权的。

二、整理表和表之间的逻辑关系

在找到DE的负责人后,需要他们提供数据表对应的文档,然后整理出这些表之间的逻辑关系,一般数仓表都会有维度表和明细表两大类,常见的套路就是维度表去关联明细表。

三、理解用户数据在数据仓库的落库逻辑

在熟悉了数据表里的字段和表的相互关系后,接下来就需要感受数据在业务逻辑中的流动和落盘。一个数据老鸟在和业务沟通时候,会在脑子里带着表结构去询问业务的SOP。

当业务说用户注册账户,脑子里就要想着在用户维度表增加一行,用户注册的相关信息会被记录在这个维度表里。然后用户填写相关的表格提交信息,就会知道我们收集的用户信息会按SOP流程在规定的时间落盘在用户信息表中。其中哪些信息是必须非空的,哪些是可以有缺失的,缺失的时候数据表里是None值还是默认值。

关于我们怎样保证从数据仓库取出的数据质量,青藤小编今天就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。

分享到: 编辑:方梦茹

就业培训申请领取
您的姓名
您的电话
意向课程
点击领取

环球青藤

官方QQ

扫描上方二维码或点击一键加群,免费领取大礼包,加群暗号:青藤。 一键加群

绑定手机号

应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

预约成功

本直播为付费学员的直播课节

请您购买课程后再预约

环球青藤移动课堂APP 直播、听课。职达未来!

安卓版

下载

iPhone版

下载
环球青藤官方微信服务平台

刷题看课 APP下载

免费直播 一键购课

代报名等人工服务

课程咨询 学员服务 公众号

扫描关注微信公众号

APP

扫描下载APP

返回顶部