关于大数据与人工智能的未来
【摘要】关于大数据与人工智能的未来看过几本大数据的书,吴博士这本,思路清晰,可读性强,于是,我不辞辛劳,从23万余字的著述中,摘要5千余字,
关于大数据与人工智能的未来
看过几本大数据的书,吴博士这本,思路清晰,可读性强,于是,我不辞辛劳,从23万余字的著述中,摘要5千余字,试图厘清和记忆,并以此为基础拓展阅读。比如,李彦宏的《智能革命》,读起来,就有点“打脑壳”。
科学发展进程:实验科学,理论科学,计算机科学,数据密集型科学。机器智能可以通过深度学习得到,从而将大数据挖掘问题转化为可计算问题来处理。这是一个计算无处不在、软件定义一切、数据驱动发展的新时代。以蒸汽机发明为标志以机械化为特征的第一次工业革命,以电的发明为标志以电气化为特征的第二次工业革命,以计算机和半导体芯片为标志的信息革命,以大数据应用为标志之一以智能化为特征的新一轮产业革命到来。用不确定的眼光看待世界,再用信息来消除这种不确定性(是宇宙的特性),是大数据解决智能问题的本质。信息熵是基石。机器智能革命的发生来自大数据量的积累达到质变的奇点。计算机之所以能战胜人类,是因为机器获得智能的方式和人类不同,它不是靠逻辑推理,而是靠大数据和智能算法。下围棋看似智能型问题,从本质上讲,是一个大数据和算法问题。开发一种机器学习的工具,让计算机能够解决智能型问题。Google所做的工作是让这些算法能够在上万台甚至上百万台服务器上并行运行,这就使得计算机解决智能问题的能力有了本质的提高。AlphaGo的获胜,宣告了机器智能时代的到来。AlphaGo的灵魂是计算机科学家为它编写的程序。机器不会控制人类,但是制造智能机器的人可以。未来的社会,属于那些具有创意的人,包括计算机科学家,而不属于掌握某种技能做重复性工作的人。数据:文字、图片、视频、影像、设计图纸、文物文字图示尺寸材料、宇宙中的基本粒子等等。范畴很大。数据与信息,有相通之处,但是不同。信息是关于世界、人和事的描述,比数据抽象。可以是人类创造的,也可以是天然存在的客观事实,比如地球的面积和质量。有些信息藏在事物背后,需要挖掘和测量。西方物理学家看来,上帝在创造这个宇宙时,将很多信息埋藏在了黑暗之中,他们的工作就是找到这些信息,并且用数据描述清楚。数据的最大作用在于承载信息,但不是所有数据都承载了有意义的信息。那些有用的数据、毫无意义的数据和伪造的数据常常混在一起,后两种数据会干扰信息获取,如何处理数据,过滤掉没有用的噪声和删除有害的数据,从而获得数据背后的信息,成为一种技术甚至是艺术。数据是文明的基石;相关性是使用数据的钥匙;统计学是点石成金的魔棒;数学模型是数据驱动方法的基础:什么样的模型及模型参数是多少。数据量要大,样本必须非常具有代表性。可以最大程度上得益于计算机技术的进步。数据成为下一次技术革命和社会变革的核心动力。核心是变智能问题为数据问题。智能革命。机器智能:图灵测试。语音识别,机器翻译,文本的自动摘要或者写作,战胜人类的国际象棋冠军,自动回答问题。鸟飞派:人工智能1.0。机器像人一样思考,按照人的思路去做。仿生学。飞机,空气动力学。传统人工智能与现代(比如数据驱动、知识发现、机器学习)的区分。工业界另辟蹊径:统计+数据。数据驱动+超级计算。贾里尼克,通信专家,认为语音识别不是一个人工智能问题,而是一个通信问题,编码,传播,解码过程。数据创造奇迹:量变到质变,Google翻译。用上万倍数据,训练出六元模型,可以构造整个从句和复杂的句子成分之间的搭配,直接对译。互联网出现,各个数据领域不断向外扩展,开始交叉,各个维度的数据从点和线逐渐连成了网,数据之间关联性极大增强,这样就出现了大数据。大数据的特征:体量大,多样性(多维度),及时性(全面性、完备性)。BigData.一种思维方式的改变。变智能问题为数据问题。对大数据重要性的认识不应该停留在统计、改进产品和销售,或者提供决策支持上,而应该看到它(和摩尔定律、数学模型一起)导致了机器智能的产生。决定今后20年经济发展的是大数据和由之而来的智能革命。在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。机械思维。思维方式决定科学成就。世界变化的规律是确定的,规律可以被认识,而且可以用简单的公式或者语言描述清楚,放之四海皆准,可以应用到各种未知领域指导实践。工业革命,机械思维的结果。世界的不确定性。影响世界的变量非常多;客观世界本身是不确定的。
熵——一种新的世界观。克劳迪.香农。在信息论中借用了热力学里熵的概念,用熵来描述一个信息系统的不确定性。信息量与不确定性有关。香农第一定律:信源编码定律,对于信源发出的所有信息设计一种编码,那么编码的平均长度一定大于该信源的信息熵,一定存在一种编码方式,使得编码的平均长度无限接近于它的信息熵。比如汉字编码,把最短的编码分配给最常见的汉字。香农第二定律:信息的传播速率不可能超过信道容量。扩展带宽。最大熵原理:当我们要对未知事件寻找一个概率模型时,这个模型应当满足我们所有已经看到的数据,但是对未知的情况不要做任何主观假设。被广泛应用于机器学习。
大数据的本质:体量大,多维度(互信息;交叉验证),完备性(交叉熵,对两种概率模型代表性或者一致性的一种精确的量化度量。小概率事件,是数据驱动方法的死穴,黑天鹅效应。)从因果关系到强相关关系。数据公司Google.当整个搜索行业都意识到点击数据的重要性后,这个市场上的竞争就从技术竞争变成了数据竞争。各公司的商业策略和产品策略都围绕着获取数据、建立相关性开展。在Google内,点击模型的使用标志着工作方法从传统的“遵循因果关系”,逐步变成了“寻找相关性”。Google的广告系统每次播放什么广告,不是由任何规则决定的,而完全是利用数据、挖掘相关性的结果。大数据思维和机械思维并非完全对立,更多是对后者的补充,新时代的新方法论。大数据与商业。巨大的商业利好:相关性、时效性和个性化的重要性。大数据商业的共同点——尽在数据流中,把控每一个细节。2001年,普拉达的衣服价牌里藏着一个RFID芯片,智能试衣间,看到穿的效果,看到是由于设计、制作、还是销售环节的问题。金风公司,风力发电机,利用互联网,将发电价的各种数据(地点、发电量、运行情况)全部收集到公司,进行大数据分析,可以了解各种宏观信息,也可以有针对性进行市场推广;同时了解每一台发电机运行细节,有问题及时解决,也有改进依据。经营策略从依赖市场预测、打价格战,提升为高质量的服务商。重新认识穷举法——完备性带来的结果。商业上,大数据不仅便于掌握大局和每一个具体细节,而且改变了人们开发产品和解决问题的思路,这些做事方法的变化很大程度上是大数据的完备性带来的。Google的自动驾驶汽车,把自动驾驶汽车这个看似机器人的问题变成了一个大数据问题。街景项目的延伸,只能去“扫过街”收集到非常完备信息的地方,直接调用数据进行参考。十多个传感器,每秒钟进行几十次各种扫描,同时大量的数据要在短时间内处理完,计算压力很大,与Google超级数据中心相连,整体数据量及计算能力远超其他公司。Google拥有最好的全球地图数据。交通事故的发生是因为数据的缺失,一个小沙袋,没见过,试图绕道,但没有方向盘,无法人为控制。大数据多维度的优势,让Google赶超很多全球著名的汽车公司。大数据的作用:新技术+原有产业=新产业。现有产业+大数据=新产业;现有产业+机器智能=新产业。技术改变商业模式,导致社会生活方式的变化。加(+)大数据缔造新产业。智能冰箱。小米与格力。小米是以互联网公司方式来经营手机业务。手机只是获得用户的手段,获得后,需要通过其他方式挣钱,配件,可穿戴设备,其他产品线。以家电为主的垂直电商,注重对用户行为分析及数据作用,有可能在一些垂直领域做得比传统电商更有效。格力,传统家电企业典型代表,如果不利用大数据转型,非常危险,可以通过一些产品跟踪技术,采集用户数据,不再受经销商控制。未来,商家将在数据层面和智能化方面展开竞争。技术挑战:数据量爆炸式增长。产生、存储、传输、处理。产生:电脑、传感器(射频识别芯片,跟踪物品)、过去信息数字化,网络用户个人数据。存储:邮箱、日志、半导体的固态存储器(SSD)容量增加成本下降。传输:第四代LTE有效传输率达到2-10MB/s,WIFI、蓝牙标配,数据可以迅速传输到服务器。处理:多维度、并行化处理,交换机及网络速度必须非常快。云计算兴起。互联网、廉价服务器、比较成熟的并行计算工具,实现了大规模并行运算,大数据处理成为可能。数据收集:看似简单的难题。没有前提与假设。没有目的性,全面的数据。间接收集,利用相关性导出自己想要的信息。数据存储的压力和数据表示的难题:数据量增长的速度高过存储设备的发展速度,并且差距拉大。需要技术解决方案提高存储效率。存储同样的信息占用空间小,非简单数据压缩。数据安全,不丢失、不损坏。3+1份拷贝。怎样存储便于使用。重新设计通用、有效、便捷的数据表示方式和存储方式。数据建立索引,医疗、半导体设计、飞机制造等数据量大且复杂,随机访问较难。还有如何标准化数据格式,便于共享。要先解决数据的表示、检索和随机访问等问题。Google的ProtocolBuffer 数据格式,开源共享。并行计算与实时处理:并非增加机器那么简单。从根本上改变系统设计和算法。数据挖掘:机器智能的关键。过滤和处理。去除无关维度,有关数据内容格式化整理。噪声。信噪比高,数据才可靠。机器学习。人工神经网络、最大熵模型、逻辑自回归等。不断迭代、不断进步,不断优化。深度学习工具。人工神经网络并行实现。将一个很大模型的上百万参数同时训练的问题,简化为能够分布到上万台甚至更多服务器上的小问题,使得大型人工神经网络训练成为可能。专门做机器学习的公司,为需要使用大数据和机器智能的公司提供服务。数据安全的技术:不损坏不丢失,不会被偷走或盗用。尽量将敏感信息放到不同地方。文件系统与操作系统的改进。利用大数据本身的特点,来保护大数据的信息安全。发现并防止异常操作。保护隐私:靠大数据长期挣钱的必要条件。在乎自己的隐私还是希望获得更多的便利性。技术与法律层面。需要新的技术保护隐私。预处理及双向监视。未来智能化产业:农业,以色列人在干旱的土地上实现了高产,欧洲厨房。科技兴农,滴灌技术,将水和肥料直接送达植物根系,大大节约水和肥料;自动化灌溉系统,大量传感器,节省人力及水资源。体育:大数据定制球队风格与战术。动作姿势纠正,仅靠天赋与苦练不足以取得好成绩。制造业:全面智能化,产品个性化定制。商品设计与研发、生产、仓储与物资管理、物流与运输、批发和零售,智能化管理降低各环节成本。特斯拉重新定义汽车行业,引入大数据和机器智能后脱胎换骨,新行业。医疗:增进健康,延年益寿。医疗成本高昂。药品研制周期长、费用高;医务人员培养成本高。大数据诊疗,医学影像分析,手术。失误低,准确率高,稳定性好。解决医疗资源短缺问题。制药业革命。基因比对,大数据发现导致癌变组合,个性化特效药,治疗癌症。阿尔茨海默症。大数据医疗保健公司。找到导致衰老的基因,修复身体细胞复制时出错的基因,延年益寿。标准人类医疗数据库,5000人全部生理和医疗信息。基因编辑与修复技术。律师:数据之间强相关性证据,案例分析。高昂的律师费。自然语言处理和信息检索技术,计算机阅读和分析法律文献。律师效率提高500倍,打官司成本可以下降99%。记者与编辑:财经新闻、财报速评,机器写作。机器从大量文本语料中学习写作。智能革命和未来社会:最好的时代,最坏的时代。智能、精细、人性化。智能:造福人类同时,对人类社会的冲击及社会问题产生,要有所准备。减少拥堵踩踏,优化城市交通,智能出行,合理利用交通资源,如道路及停车场。实时流量及未来流量预测,调整交通信号灯时间。大数据反恐。精细化:通过区块链和FRID技术,跟踪每一件商品从制造到被消费的完整行踪。个性化:医疗及服务。无隐私社会:移动互联网(万物联网)、大数据、机器智能三者叠加,导致我们不再有隐私可言。生活细节方方面面的隐私。淘宝送来的假货,机票总是贵20%,健康与医疗,可能被拒绝投保。我们本身就是主动的隐私泄密者。APP,WIFI,服务商。大数据威力,多维度信息,人物画像;机器智能挖掘;公司的善意靠不住,强权政治。隐私就像自由,只有当人们失去它的时候,才知道它的可贵。机器人抢掉人的饭碗:让更多的人无事可做,技术革命对社会的冲击,大约半个世纪甚至更长时间才能够消化掉。从工业革命到黄金时代,从第二次工业革命到镀金时代,依然没有消化完的信息革命。解决问题只能够靠时间。被淘汰的从业人员能够进入新行业的非常少。社会的动荡,养着或者耗着。智能革命的冲击:信息革命本身的影响还没有消化完,全球信息化的效率已经使得很多人无事可做,很少人生产出来的东西就够全球人口消费。消化影响更难,全球没有空白市场可以开拓。被替代的是人类的大脑。强度更大,影响面更广、更深刻。农民到工人到服务业。低收入无收入人群出路在哪里?工作对现代人的重要性。很多人被社会进步抛弃了。怎样创造出几十亿人的产业?怎样让所有人都有成就感和幸福感?争当2%的人:踏上智能革命的浪潮。不是机器控制人类社会,但是制造智能机器人的人就不同了!微信、淘宝、京东、滴滴,亿万用户的生活衣食住行的细节的把控,挣钱不言而喻。看似免费的东西其实最贵,因为获得服务的同时,交出了自己的自由。加入行列,利用好大数据及机器智能。传统行业的人,心理上和观念上的与大数据和机器智能的距离,远远大于技术上和商业上的距离。空前挑战的时代,振奋的时代,学会在机器智能超越人类的环境中生存。
上一篇:excel表格基本操作之从零开始学习
下一篇:浅析区块链技术的应用
就业培训申请领取
环球青藤
官方QQ群扫描上方二维码或点击一键加群,免费领取大礼包,加群暗号:青藤。 一键加群
数据分析师相关文章推荐
|数据分析师最新文章推荐
最新文章
数据分析师各地入口
环球青藤官方微信服务平台
刷题看课 APP下载
免费直播 一键购课
代报名等人工服务
数据分析师热点排行
- 1 传统数据和大数据的区别
- 2 数据分析的8种方法都是哪些?
- 3 数据分析的具体流程是什么?
- 4 3大常用的数据分析工具是什么?
- 5 excel中的运算符
- 6 数据分析的作用有哪些?
- 7 电子商务需要分析哪些数据?
- 8 数据分析包括哪些内容?
- 9 数据分析的基本步骤
- 10 rdd是什么?