常用的机器学习&数据挖掘知识(点）

发布时间：2020年09月29日 13:14:44 来源：点击量：875

【摘要】常用的机器学习&数据挖掘知识(点）Basis(基础)：MSE(Mean Square Error 均方误差)，LMS(LeastMean Square 最小均方)，LSM(Least Squa

常用的机器学习&数据挖掘知识(点）

Basis(基础)：

MSE(Mean Square Error 均方误差)，

LMS(LeastMean Square 最小均方)，

LSM(Least Square Methods 最小二乘法)，

MLE(MaximumLikelihood Estimation最大似然估计)，

QP(Quadratic Programming 二次规划)，

CP(Conditional Probability条件概率)，

JP(Joint Probability 联合概率)，

MP(Marginal Probability边缘概率)，

Bayesian Formula(贝叶斯公式)，

L1 /L2Regularization(L1/L2正则，

以及更多的，现在比较火的L2.5正则等)，

GD(GradientDescent 梯度下降)，

SGD(Stochastic Gradient Descent 随机梯度下降)，

Eigenvalue(特征值)，

Eigenvector(特征向量)，

QR-decomposition(QR分解)，

Quantile (分位数)，

Covariance(协方差矩阵)。

Common Distribution(常见分布)：

Discrete Distribution(离散型分布)：

BernoulliDistribution/Binomial(贝努利分布/二项分布)，

Negative BinomialDistribution(负二项分布)，

MultinomialDistribution(多项式分布)，

Geometric Distribution(几何分布)，

HypergeometricDistribution(超几何分布)，

Poisson Distribution (泊松分布)。

Continuous Distribution (连续型分布)：

UniformDistribution(均匀分布)，

Normal Distribution /Guassian Distribution(正态分布/高斯分布)，

ExponentialDistribution(指数分布)，

Lognormal Distribution(对数正态分布)，

GammaDistribution(Gamma分布)，

Beta Distribution(Beta分布)，

Dirichlet Distribution(狄利克雷分布)，

Rayleigh Distribution(瑞利分布)，

Cauchy Distribution(柯西分布)，

Weibull Distribution (韦伯分布)。

Three Sampling Distribution(三大抽样分布)：

Chi-squareDistribution(卡方分布)，

t-distribution(t-distribution)，

F-distribution(F-分布)。

Data Pre-processing(数据预处理)：

Missing Value Imputation(缺失值填充)，

Discretization(离散化)，Mapping(映射)，

Normalization(归一化/标准化)。

Sampling(采样)：

Simple Random Sampling(简单随机采样)，

OfflineSampling(离线等可能K采样)，

Online Sampling(在线等可能K采样)，

Ratio-based Sampling(等比例随机采样)，

Acceptance-RejectionSampling(接受-拒绝采样)，

Importance Sampling(重要性采样)，

MCMC(MarkovChain Monte Carlo 马尔科夫蒙特卡罗采样算法：Metropolis-Hasting& Gibbs)。

Clustering(聚类)：

K-Means，

K-Mediods，

二分K-Means，

FK-Means，

Canopy，

Spectral-KMeans(谱聚类)，

GMM-EM(混合高斯模型-期望最大化算法解决)，

K-Pototypes，CLARANS(基于划分)，

BIRCH(基于层次)，

CURE(基于层次)，

DBSCAN(基于密度)，

CLIQUE(基于密度和基于网格)。

Classification&Regression(分类&回归)：

LR(Linear Regression 线性回归)，

LR(LogisticRegression逻辑回归)，

SR(Softmax Regression 多分类逻辑回归)，

GLM(GeneralizedLinear Model 广义线性模型)，

RR(Ridge Regression 岭回归/L2正则最小二乘回归)，

LASSO(Least Absolute Shrinkage andSelectionator Operator L1正则最小二乘回归)，

RF(随机森林)，

DT(DecisionTree决策树)，

GBDT(Gradient BoostingDecision Tree 梯度下降决策树)，

CART(ClassificationAnd Regression Tree 分类回归树)，

KNN(K-Nearest Neighbor K近邻)，

SVM(Support VectorMachine)，

KF(KernelFunction 核函数PolynomialKernel Function 多项式核函、

Guassian KernelFunction 高斯核函数/Radial BasisFunction RBF径向基函数、

String KernelFunction 字符串核函数)、

NB(Naive Bayes 朴素贝叶斯)，BN(Bayesian Network/Bayesian Belief Network/ Belief Network 贝叶斯网络/贝叶斯信度网络/信念网络)，

LDA(Linear Discriminant Analysis/FisherLinear Discriminant 线性判别分析/Fisher线性判别)，

EL(Ensemble Learning集成学习Boosting，Bagging，Stacking)，

AdaBoost(Adaptive Boosting 自适应增强)，

MEM(MaximumEntropy Model最大熵模型)。

Effectiveness Evaluation(分类效果评估)：

Confusion Matrix(混淆矩阵)，

Precision(精确度)，Recall(召回率)，

Accuracy(准确率)，F-score(F得分)，

ROC Curve(ROC曲线)，AUC(AUC面积)，

LiftCurve(Lift曲线) ，KS Curve(KS曲线)。

PGM(Probabilistic Graphical Models概率图模型)：

BN(Bayesian Network/Bayesian Belief Network/ BeliefNetwork 贝叶斯网络/贝叶斯信度网络/信念网络)，

MC(Markov Chain 马尔科夫链)，

HMM(HiddenMarkov Model 马尔科夫模型)，

MEMM(Maximum Entropy Markov Model 最大熵马尔科夫模型)，

CRF(ConditionalRandom Field 条件随机场)，

MRF(MarkovRandom Field 马尔科夫随机场)。

NN(Neural Network神经网络)：

ANN(Artificial Neural Network 人工神经网络)，

BP(Error BackPropagation 误差反向传播)。

Deep Learning(深度学习)：

Auto-encoder(自动编码器)，

SAE(Stacked Auto-encoders堆叠自动编码器，

Sparse Auto-encoders稀疏自动编码器、

Denoising Auto-encoders去噪自动编码器、

Contractive Auto-encoders 收缩自动编码器)，

RBM(RestrictedBoltzmann Machine 受限玻尔兹曼机)，

DBN(Deep Belief Network 深度信念网络)，

CNN(ConvolutionalNeural Network 卷积神经网络)，

Word2Vec(词向量学习模型)。

DimensionalityReduction(降维)：

LDA LinearDiscriminant Analysis/Fisher Linear Discriminant 线性判别分析/Fisher线性判别，

PCA(Principal Component Analysis 主成分分析)，

ICA(IndependentComponent Analysis 独立成分分析)，

SVD(Singular Value Decomposition 奇异值分解)，

FA(FactorAnalysis 因子分析法)。

Text Mining(文本挖掘)：

VSM(Vector Space Model向量空间模型)，

Word2Vec(词向量学习模型)，

TF(Term Frequency词频)，

TF-IDF(Term Frequency-Inverse DocumentFrequency 词频-逆向文档频率)，

MI(MutualInformation 互信息)，

ECE(Expected Cross Entropy 期望交叉熵)，

QEMI(二次信息熵)，

IG(InformationGain 信息增益)，

IGR(Information Gain Ratio 信息增益率)，

Gini(基尼系数)，

x2 Statistic(x2统计量)，

TEW(TextEvidence Weight文本证据权)，

OR(Odds Ratio 优势率)，

N-Gram Model，

LSA(Latent Semantic Analysis 潜在语义分析)，

PLSA(ProbabilisticLatent Semantic Analysis 基于概率的潜在语义分析)，

LDA(Latent DirichletAllocation 潜在狄利克雷模型)。

Association Mining(关联挖掘)：

Apriori，

FP-growth(Frequency Pattern Tree Growth 频繁模式树生长算法)，

AprioriAll，

Spade。

Recommendation Engine(推荐引擎)：

DBR(Demographic-based Recommendation 基于人口统计学的推荐)，

CBR(Context-basedRecommendation 基于内容的推荐)，

CF(Collaborative Filtering协同过滤)，

UCF(User-basedCollaborative Filtering Recommendation 基于用户的协同过滤推荐)，

ICF(Item-basedCollaborative Filtering Recommendation 基于项目的协同过滤推荐)。

Similarity Measure&Distance Measure(相似性与距离度量)：

Euclidean Distance(欧式距离)，

ManhattanDistance(曼哈顿距离)，

Chebyshev Distance(切比雪夫距离)，

MinkowskiDistance(闵可夫斯基距离)，

Standardized Euclidean Distance(标准化欧氏距离)，

MahalanobisDistance(马氏距离)，

Cos(Cosine 余弦)，

HammingDistance/Edit Distance(汉明距离/编辑距离)，

JaccardDistance(杰卡德距离)，

Correlation Coefficient Distance(相关系数距离)，

InformationEntropy(信息熵)，

KL(Kullback-Leibler Divergence KL散度/Relative Entropy 相对熵)。

Optimization(最优化)：

Non-constrainedOptimization(无约束优化)：

Cyclic VariableMethods(变量轮换法)，

Pattern Search Methods(模式搜索法)，

VariableSimplex Methods(可变单纯形法)，

Gradient Descent Methods(梯度下降法)，

Newton Methods(牛顿法)，

Quasi-NewtonMethods(拟牛顿法)，

Conjugate Gradient Methods(共轭梯度法)。

ConstrainedOptimization(有约束优化)：

Approximation Programming Methods(近似规划法)，

FeasibleDirection Methods(可行方向法)，

Penalty Function Methods(罚函数法)，

Multiplier Methods(乘子法)。

Heuristic Algorithm(启发式算法)，

SA(SimulatedAnnealing，

模拟退火算法)，

GA(genetic algorithm遗传算法)。

Feature Selection(特征选择算法)：

Mutual Information(互信息)，

DocumentFrequence(文档频率)，

Information Gain(信息增益)，

Chi-squared Test(卡方检验)，

Gini(基尼系数)。

Outlier Detection(异常点检测算法)：

Statistic-based(基于统计)，

Distance-based(基于距离)，

Density-based(基于密度)，

Clustering-based(基于聚类)。

Learning to Rank(基于学习的排序)：

Pointwise：McRank；

Pairwise：RankingSVM，RankNet，Frank，RankBoost；

Listwise：AdaRank，SoftRank，LamdaMART。

Tool(工具)：

MPI，Hadoop生态圈，Spark，BSP，Weka，Mahout，Scikit-learn，PyBrain…

以及一些具体的业务场景与case等。

分享到：编辑：wangmin

上一篇：excel表格基本操作之从零开始学习下一篇：大数据时代哪7类人最赚钱

一节课掌握AI办公提效神器

数据分析师 1次课共1小时

高老师

1162人已报名

免费

体验课

Excel常用技巧助你高效办公

数据分析师 3次课共3小时

张玮

火热报名中

¥29

职场数据分析训练营-办公效率班

数据分析师 40次课共30小时

曹峥

火热报名中

¥2299

就业培训申请领取

您的姓名

您的电话

意向课程

点击领取

环球青藤

官方QQ群

扫描上方二维码或点击一键加群，免费领取大礼包，加群暗号：青藤。一键加群

数据分析师相关文章推荐

数据分析师最新文章推荐

免费直播更多

应《中华人民共和国网络安全法》加强实名认证机制要求,同时为更加全面的体验产品服务,烦请您绑定手机号.

预约成功

本直播为付费学员的直播课节

请您购买课程后再预约

我要购买

最新文章

环球青藤移动课堂APP 直播、听课。职达未来！

安卓版

下载

iPhone版

下载

环球青藤官方微信服务平台

刷题看课 APP下载

免费直播一键购课

代报名等人工服务

数据分析师热点排行

常用的机器学习&数据挖掘知识(点）

就业培训申请领取

数据分析师相关文章推荐

数据分析师最新文章推荐

绑定手机号

注册账号

环球青藤用户注册

常用的机器学习&数据挖掘知识(点）

就业培训申请领取

数据分析师相关文章推荐

数据分析师最新文章推荐

绑定手机号

注册账号

环球青藤用户注册

欢迎登陆环球青藤