课程简介
本次课程主要针对大数据平台中的海量数据计算分析工具的原理及实战应用进行讲解,包括Hive的原理及使用,Spark中的Spark core、Spark SQL 、SparkStreaming这些内容进行讲解,通过这些内容的学习,可以掌握如何使用SQL计算HDFS上的海量数据,以及掌握Spark中的离线计算和实时计算。
主要内容
培训天数 |
课程模块 |
课程内容 |
第一天 (上午) |
Hive数据分析工具快速上手 |
1.目前常见的大数据分析引擎分析 2.Hive的核心原理及安装部署 3.Hive中Database的操作 4.Hive中Table的操作 5.Hive表数据加载的两种模式 6.Hive复合数据类型使用(array\map\struct) 7.Mysql数据如何迁移到Hive中 8.Hive表类型介绍 9.Hive的内部表、外部表、分区表、桶表实操 |
第一天 (下午) |
Hive的核心功能及使用 |
1.Hive的视图和索引实操 2.Hive的高级函数 3.Hive中的分组排序取TopN\行转列\列转行 4.Hive中groupby和distinct和over的区别 5.Hive的三种计算引擎分析(MapReduce\Tez\Spark) 6.【案例】Hive SQL数据分析项目概述 |
第二天 (上午) |
Spark快速上手 |
1.Spark核心原理剖析 2.Spark集群安装部署模式剖析 3.Spark架构原理 4.Spark程序开发 5.Spark任务的三种提交模式 6.Spark中的Transformation算子详解 7.Spark中的Action算子详解 |
第二天 (下午) |
Spark核心功能使用 |
1.RDD持久化原理及应用 2.案例:TopN功能实现 3.宽依赖和窄依赖 4.checkpoint原理及应用详解 5.Spark的性能优化手段 6.Spark sql的使用 7.SparkStreaming的使用 8.【案例】:Spark海量数据离线批处理功能 9.【案例】:Spark streaming流处理功能 |
课程目标
1.掌握Hive SQL在海量数据分析中的使用;
2.掌握Spark在海量数据计算分析中的应用。
讲师介绍
徐葳。徐老师是中科院大数据技术专家,有着丰富的IT方面从业经验,拥有8年上市互联网公司软件研发经验,曾任职猎豹移动大数据技术专家,对离线和实时数据计算有深入理解。曾参与开发海外互联网舆情监控系统,在猎豹移动任职期间带领团队开发了海量日志数据采集系统、OLAP数据分析平台、数据仓库构建、PB级日志检索系统等。
授课经历:曾前往北京航天智能科技、上海文思海辉为技术工程师进行培训,受到公司和员工好评。受邀成为郑州工业应用学院特聘大数据讲师。