数据预处理之数据归一化

发布时间：2020年09月28日 21:43:07 来源：点击量：193

【摘要】数据预处理之数据归一化一、简单缩放分为：最大值缩放和均值缩放在简单缩放中，我们的目的是通过对数据的每一个维度的值进行重新调节（这

数据预处理之数据归一化

一、简单缩放

分为：最大值缩放和均值缩放

在简单缩放中，我们的目的是通过对数据的每一个维度的值进行重新调节（这些维度可能是相互独立的），使得最终的数据向量落在[0,1]或[? 1,1]的区间内（根据数据情况而定）。

例子:在处理自然图像时，我们获得的像素值在[0,255]区间中，常用的处理是将这些像素值除以255，使它们缩放到[0,1]中。

二、逐样本均值消减(也称为移除直流分量)

如果你的数据是平稳的（即数据每一个维度的统计都服从相同分布），那么你可以考虑在每个样本上减去数据的统计平均值(逐样本计算)。

例子：对于图像，这种归一化可以移除图像的平均亮度值(intensity)。很多情况下我们对图像的照度并不感兴趣，而更多地关注其内容，这时对每个数据点移除像素的均值是有意义的。

注意：虽然该方法广泛地应用于图像，但在处理彩色图像时需要格外小心，具体来说，是因为不同色彩通道中的像素并不都存在平稳特性。

例如

Caffe demo 里头的 classification_demo.m脚本文件中对原始数据有这样的处理

im_data = im_data - mean_data;

三、特征标准化(使数据集中所有特征都具有零均值和单位方差)

特征标准化的具体做法是：首先计算每一个维度上数据的均值（使用全体数据计算），之后在每一个维度上都减

去该均值。下一步便是在数据的每一维度上除以该维度上数据的标准差。

简单的说就是：减去原始数据的均值再除以原始数据的标准差

例子

x= [ones(m, 1), x];

%x包括2个特征值和1个偏置项，所以矩阵x的规模是 x:[mX3]

sigma= std(x);%X的标准差；mu= mean(x);%X的均值；x(:,2)= (x(:,2) - mu(2))./ sigma(2);x(:,3)= (x(:,3) - mu(3))./ sigma(3);

分享到：编辑：wangmin

上一篇：excel表格基本操作之从零开始学习下一篇：商业活动中数据重要性分析

VBA实战速成：从零到一的突破

数据分析师 62次课共11小时

吴开斌

火热报名中

¥1299

WPS高效数据管理

数据分析师 17次课共4小时

王忠超

火热报名中

¥1299

Fine BI 商业智能数据分析

数据分析师 27次课共6小时

王忠超

火热报名中

¥1299

就业培训申请领取

您的姓名

您的电话

意向课程

点击领取

环球青藤

官方QQ群

扫描上方二维码或点击一键加群，免费领取大礼包，加群暗号：青藤。一键加群

数据分析师相关文章推荐

数据分析师最新文章推荐

免费直播更多

应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

预约成功

本直播为付费学员的直播课节

请您购买课程后再预约

我要购买

最新文章

环球青藤移动课堂APP 直播、听课。职达未来！

安卓版

下载

iPhone版

下载

环球青藤官方微信服务平台

刷题看课 APP下载

免费直播一键购课

代报名等人工服务

数据分析师热点排行