需求是科学技术发展的原动力。大数据问题的出现与研究已经成为了计算机科学与技术研究的新热点,并显示出日益强大的吸引力,科学大数据的出现催生了数据密集型知识发现的第四科学研究范式的出现。目前,大数据技术与应用展现出锐不可挡的强大生命力,科学界与企业界寄予无比的厚望。e良师益友网为你推荐学习教程。
在全世界范围内,以电子方式存储的数据(简称为电子数据)总量空前巨大,在2011年电子数据总量已达到1.8ZB。随着数据增长的速度不断迅猛提升,数据量也在飞速增加,因此对大量电子数据的高效存储、高效传输与快速地处理是必须面对的研究问题。
数据本身是无意义的,而通过统计、分类、萃取、特征抽取等一系列技术手段,可以从数据中产生信息与知识,所以说,数据是重要的战略资源,隐含巨大的经济价值,已经引起科技界和和企业界的高度重视。有效地组织和使用数据,将对经济发展产生巨大的推动作用。大数据的出现孕育着前所未有的机遇,对大数据的交换、整合和分析,可以发现新的知识,创造新的价值,带来大知识、大科技、大利润和大发展。
课程介绍了大规模数据处理、分析和挖掘相关的常用算法理论,Hadoop生态系统的架构与应用及实际应用。
大数据概论课程的目的是:
使培训学员了解大数据产生的生态环境、大数据的概念与特点;了解社交网络、NoSQL数据库、分布系统中的CAP理论;掌握MapReduce编程模型;掌握大数据的预测分析、数据挖掘与可视化分析的基本方法;理解数据密集型知识发现的第四范式的基本方法。学员在掌握上述内容之后,可以为大数据技术的应用奠定坚实的基础。
大数据概论课程的任务是:
1、了解大数据的产生,掌握大数据的定义及主要特征、大数据的生存与优化环境。
2、理解社会网络、分布系统横向扩展的CAP定理、数据密集型第四科研范式、MapReduce分布编程模型、NoSQL基本概念等内容。
3、理解数据分析、数据挖掘、数据可视化的基本概念与方法。
4、掌握大数据预测分析、大数据挖掘和大数据可视化分析的最基本方法。