数据治理是流程、角色、政策、标准和指标的集合,可确保有效和高效地使用信息,使企业能够实现其目标。它建立了流程和职责,以确保整个企业或企业中使用的数据质量和安全性。数据治理定义了谁可以对什么数据、在什么情况下、使用什么方法采取什么行动。
①数据、信息和知识是广义数据表现的不同形式;②主要知识模式类型有:广义知识,关联知识,类知识,预测型知识,特异型知识;③web挖掘研究的主要流派有:Web结构挖掘、Web使用挖掘、Web内容挖掘。
①A*搜索算法;②集束搜索;③二分查找;④分支界定算法;⑤Buchberger算法;⑥数据压缩;⑦Diffie-Hellman密钥交换算法;⑧Dijkstra算法;⑤离散微分算法(Discrete differentiation)。
熟悉数据挖掘和机器学习的小伙伴们都知道,数据处理相关的工作时间占据了整个项目的70%以上。数据的质量,直接决定了模型的预测和泛化能力的好坏。
①理解数据和数据的来源(understanding);②获取相关知识与技术(acquisition);③整合与检查数据(integration and checking);④去除错误或不一致的数据(data cleaning);⑤建立模型和假设(model and hypothesis development);⑥实际数据挖掘工作(data mining)。
首先是数据的可伸缩性,提高或改变数据的可伸缩度;其次是解决数据高维性的问题;处理异种数据和复杂数据;解决数据所有权与分布问题;对非传统的分析进行合理处理。