当前位置: 首页 > 大数据工程师 > 大数据工程师技能提升 > 大数据工程师基础教学 > 大数据工程的操作都有哪些?

大数据工程的操作都有哪些?

发布时间:2020年12月01日 09:44:37 来源:环球青藤 点击量:1292

【摘要】数据工程是以产生决策智能为目标,将多种数据源中的相关数据提取、融合、梳理整合成一个分析数据集的一个操作过程。预处理、归一化、数据清洗、去除重复数据、数据连接是数据工程涉及的主要操作,这是大数据常用的数据处理技术。

预处理

数据的预处理操作涉及到:一是数据的码制转换,常见的码制有GBK、UTF-8、UNICODE;二是繁简转化,尤其是港台的一些文字;三是html内容文本提取,从互联网采集的数据通常为HTML格式,需要将HTML中可以显示的文本内容提取出来,作为指定字段的内容;四是表情符的处理、字段的拆分与合并等操作等都是在数据预处理环节做的操作。

归一化

数据的归一化包含不同信源数据的字段归一化、特征归一化、时间归一化、地名归一化。首先,字段归一化是指将不同爬虫采集到的同一字段整合,比如不同爬虫采下来的作者字段,命名可能不同,有的可能叫发布者,有的可能叫作者,如果需要把数据整合到一起分析,首先需要把字段命名做归一。其次,时间归一化是指,比如表达时间,文本可能是某年某月某日的形式,也可能是2019/12/20的形式,也可能是几天前、几小时前,时间归一化要做的就是将这些时间的表达统一成一种表达形式,这样才可以做后续的数据分析和统计。

数据清洗

对数据采集过程中产生的噪音数据进行清洗,噪音可能是字段的部分内容,也可能是整条数据,比如做电商评论数据处理的时候,需要清洗掉字符数小于5的无效数据或者默认好评的灌水数据或者水军发布的数据,这一操作需要根据具体的需求及数据质量去确定。

去除重复数据

数据存在重复是很常见的现象,但造成数据重复的原因是多种多样的,对于数据重复通常需要针对性处理,所以需要一个判断重复的标准。比较简单的就是所有都一模一样的判定为重复,这个也是比较好处理的,复杂的数据判重需要一个或多个字段联合,当字段为文本类型时,通常需要引入CRC或MD5算法产生新的判重字段。

数据连接

即不同类型数据的连接,比如主贴、回帖的关联,主贴和人物的连接,店铺和产品的连接。进行数据连接主要是找到共同的字段,这个字段需要是个唯一标识,常用的连接字段有url,uid,连接的关系可能是一对一,也可能是一对多。

关于大数据工程的操作都有哪些,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。

分享到: 编辑:方梦茹

就业培训申请领取
您的姓名
您的电话
意向课程
点击领取

环球青藤

官方QQ

扫描上方二维码或点击一键加群,免费领取大礼包,加群暗号:青藤。 一键加群

绑定手机号

应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

预约成功

本直播为付费学员的直播课节

请您购买课程后再预约

环球青藤移动课堂APP 直播、听课。职达未来!

安卓版

下载

iPhone版

下载
环球青藤官方微信服务平台

刷题看课 APP下载

免费直播 一键购课

代报名等人工服务

课程咨询 学员服务 公众号

扫描关注微信公众号

APP

扫描下载APP

返回顶部