1、编程/统计语言
数据挖掘在很大程度上依赖于编程,根据KD Nuggets的研究,R和Python是数据科学中最受欢迎的编程语言。
2、大数据处理框架
Hadoop,Storm,Samza,Spark,Flink,处理框架对系统中的数据进行计算,可以将其分为3类:仅批处理,仅流和混合。
3、操作系统:Linux
Linux是一种流行的操作系统,对于操作大型数据集而言,Linux更加稳定和高效。
4、数据库知识:关系数据库和非关系数据库
要管理和处理大型数据集,必须具有关系数据库的知识,例如SQL或Oracle,或非关系数据库,其主要类型为:列如Cassandra,HBase;文件:MongoDB,CouchDB;关键值:Redis,Dynamo。
5、基本统计知识
统计的基本知识对于数据挖掘者至关重要,它可以帮助您识别问题,获得更准确的结论,区分因果关系和相关性以及量化发现结果的确定性。
声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果用户发布的作品侵犯了您的权利,请联系管理员:wupeng@hqwx.com
环球青藤
官方QQ群扫描上方二维码或点击一键加群,免费领取大礼包,加群暗号:青藤。 一键加群