欢迎来IT培训班!

咨询热线 18940085928

IT培训网 > 深圳IT培训 > 深圳大数据培训 >

深圳大数据开发技巧与调优培训

授课机构:IT培训班

地址:北京

网报价格:详询

课程原价:

咨询热线:18940085928

课程详情 相关推荐 学校地址 网上报名

课程介绍发布日期:2022-08-22 14:35
课程亮点


师资:*讲师团队,丰富行业经验和企业培训经验



特色:小班培训,精品课程,面授+直播+录播,上课方式多样



培训:免费重听



适用对象


不限



课程内容


*天



主题1:大数据平台方案与实施



大数据基础与发展过程



传统大规模数据处理与分析存在的问题



大数据计算框架



离线计算框架;流式计算框架;内存计算框架;



大数据平台方案



CDH 、Hortonworks、MapR;传统IT公司方案:Oracle Exadata,SAP HANA;核心组件;Hadoop 1.0与2.0版本关联与区别;Hadoop生态系统;Apache Hadoop方案;国外主流大数据平台方案;国内主流大数据平台方案与厂商;大数据平台方案比较;



大数据的行业应用



大数据的落地实施挑战



主题2:大数据计算模型(一)–批处理MapReduce



MapReduce编程模型



Map处理;Reduce处理;MapReduce主程序设置;



MapReduce处理流程



数据读取collect;中间数据sort;中间数据spill;中间数据shuffle;聚合分析reduce;



MapReduce开发高级应用



Combiner技术与应用场景;Partitioner技术与应用场景;多Reducers应用;



MapReduce开发与应用实践



Hadoop平台搭建与运行;MapReduce安装与部署;应用案例:基于HDFS+MapReduce集成的服务器日志分析采集、存储与分析MapReduce程序实例开发与运行;



主题3:大数据存储系统



HDFS分布式文件系统



NameNode单点故障解决方案;NFS冷备份;block的备份策略;fsimage和editslog;HDFS系统架构与原理;NameNode功能详解;DataNode功能详解;HDFS读写机制;HDFS高可用方案;



第二天



主题4:Hadoop软件框架与优化



Hadoop1.0框架



Hadoop JobTracker;Hadoop TaskTracker;



Hadoop 2.0 框架



ResourceManager组件;NodeManager组件;ApplicationMaster组件;YARN组件;



Hadoop 2.0 资源调度优化



YARN调度原理;CapacityScheduler;FairScheduler;



Hadoop框架组件调优



慢启动优化;心跳优化;容错优化;MR计算框架参数调优;



HDFS调优



RPC线程调优;本地文件系统调优;RAID与卷管理调优;小文件优化;



主题5:大数据计算模型(二)实时交互计算– Spark



Spark编程模型



Scala:面向函数的编程;Scala常见函数与开发;Scala编译和运行;



Spark RDD开发模型



宽依赖;窄依赖;count;collect;saveAsTextFile;map;flatmap;filter;union;reduceByKey;groupByKey;Spark RDD运行机制;Spark RDD主要Transformation;Spark RDD主要Action;Spark RDD依赖关系;



Spark集群架构与关键组件



Spark作业运行机制



执行DAG图;任务集;executor执行模型;



Spark开发与应用实践



基于HDFS+Flume+Spark的服务器运行日志实时分析Spark程序实例开发与运行;Spark运行环境搭建与部署;应用案例;



主题6:SQL on Hadoop大数据查询



基于MapReduce的大数据查询Hive



列存储和行存储;Hive架构与工作原理;Hive数据加载;Hive内部表和外部表;Hive分区表和分通表;Hive的存储方式;Hive SQL基本操作;



基于Spark的大数据查询SparkSQL



数据表读取、查询与结果保存;json;Hive table;Parquet file;RDD;SparkSQL工作原理与执行机制;SparkSQL数据模型Dataframe;SparkSQL数据读取与结果保存;SparkSQL和Hive的区别与联系;实践SparkSQL操作;



第三天



主题7:大数据计算模型(三) 流计算



流数据处理应用场景



流数据处理特点;流计算系统:SparkStreaming,Storm对比;



流数据计算框架:Spark Streaming



基于文件流的SparkStraeming程序;基于socket流的SparkStraeming程序;Spark Streaming基本概念;Spark Streaming数据模型DStream;Spark Streaming架构与工作机制;Spark Streaming数据源操作;Spark Streaming开发示例;



流数据计算框架:Storm



Spout,Bolt, Topology;Storm基本概念;Storm编程模型;数据流分组;并发度设置;容错机制;



主题8:NoSQL数据库



NoSQL数据库



Hbase,MongoDB,Redis;关系型数据库瓶颈;NoSQL数据库概念,分类与适用场景;



列存储NoSQL数据库Hbase



高表与宽表;rowkey设计;LSM结构的数据组织与读写;Hmaster;RegionServer;Zookeeper;行、列簇、时间戳;Hbase原理与数据模型;Hbase系统架构;Hbase的读写机制;Hbase表的设计原则;Hbase适用场景;



主题9:大数据采集



RDBMS与Hadoop数据转换工具Sqoop



Sqoop工作原理;



文件采集工具Flume



Flume组件与运行;Flume常用配置;



Kafka



Kafka基本概念: producer, broker, consumer;Kafka集群架构;Kafka运行机制;Kafka应用场景;
  • 学校名称:IT培训网

    固定电话:18940085928

    授课地址:线下 预约名额

报名信息