欢迎来IT培训班!

咨询热线 18940085928

IT培训网 > 上海IT培训 > 上海大数据培训 >

上海大数据ApacheHadoop培训

授课机构:IT培训班

地址:北京

网报价格:详询

课程原价:

咨询热线:18940085928

课程详情 相关推荐 学校地址 网上报名

课程说明
课程级别入门级
培训周期1年
上课地址上海市徐汇区文定路200号盛源恒华大厦803
【课程详情】
ClouderaApacheHadoop培训及认帮助您进阶大数据知识及技能。
 
 
Cloudera培训中心为期4天的Hadoop管理员培训将帮助学员综合理解并掌握通过ClouderaManager对Hadoop集群的运维管理,包括:安装,配置、负载平衡及性能调优等。通过该培训,Hadoop系统管理员将能准备好应对实际运维中遇到的挑战。
 
一.培训内容
 
● 通过讲师在课堂上的讲解,以及实操练习,学员将学习以下内容:
 
●ClouderaManager管理集群的特性,诸如日志汇总、配置管理、资源管理、报告、报警及服务管理等。
 
●YARN、MapReduce、Spark及HDFS的工作原理。
 
●如何为你的集群选取合适的硬件和架构。
 
●如何将Hadoop集群和企业已有的系统进行无缝集成。
 
●如何使用Flume进行实时数据采集以及如何使用Sqoop在RDBMS和Hadoop集群之间进行数据导入导出。
 
●如何配置公平调度器为Hadoop上的多用户提供服务。
 
●产品环境中Hadoop集群的运维实践。
 
●Hadoop集群排错、诊断问题和性能调优。
 
二.培训对象及学员基础
 
面向系统管理员和IT经理,需具备Linux经验,无需ApacheHadoop基础。
 
三.认
 
结束本课程培训后,我们建议学员准备并注册参加CCAHadoop管理员考试。通过并获取该书是向公司及客户证明个人在Hadoop领域的技术和专长的有力依据。
 
四.课程大纲
 
1. ApacheHadoop介绍
 
●Hadoop的创建动机
 
●基本概念
 
●Hadoop核心部件
 
2. Hadoop集群安装
 
●集群管理方案
 
●ClouderaManager特性
 
●Clouderamanager安装
 
●Hadoop(CDH)安装
 
3. Hadoop分布式文件系统(HDFS)
 
●HDFS特性
 
●读写文件
 
●NameNode内存考虑
 
●HDFS简介
 
●HDFSWebUI
 
●使用HDFSShell
 
4. YARN上的MapReduce和Spark
 
●计算平台在Hadoop里扮演的角色
 
●YARN:集群资源管理器
 
●MapReduce概念
 
●ApacheSpark概念
 
●Yarn上的计算平台
 
●通过WebUI及Shell观察YARN应用
 
●YARN应用运行日志
 
5. Hadoop配置及服务运行日志
 
●ClouderaManager配置管理机制
 
●定位配置参数及进行配置变更
 
●管理角色实例及添加服务
 
●配置HDFS服务
 
●配置Hadoop服务运行日志
 
●配置YARN服务
 
6. HDFS数据导入
 
●使用Flume从外部数据源实时
 
●导入数据
 
●使用Sqoop从关系数据库导入数据
 
●REST接口
 
●导入数据的实践
 
7. Hadoop集群规划
 
●规划考虑因素
 
●硬件选择
 
●虚拟化选项*
 
●网络因素
 
●节点配置
 
8. Hive,Impala及Pig安装及配置
 
●Hive
 
●Impala
 
●Pig
 
9. Hadoop客户端及Hue
 
●什么是Hadoop客户端
 
●安装及配置Hadoop客户端
 
●安装及配置Hue
 
●使用Hue进行身份验及
 
10. 集群配置
 
●配置参数
 
●Hadoop端口配置
 
●HDFS机柜感知配置
 
●HDFS高可靠性配置
 
11. Hadoop
 
●Hadoop的重要性
 
●Hadoop性概念
 
●Kerberos简介
 
●使用Kerberos保护Hadoop集群
 
●其他概念
 
12. 资源管理
 
●使用静态服务池配置Linuxcgroup
 
●公平调度器
 
●配置动态资源池
 
●YARN内存及CPU设置
 
●Impala查询调度
 
13. 集群维护
 
●检查HDFS状态
 
●集群间复制数据
 
●添加/移除集群节点
 
●集群数据负载平衡
 
●目录快照
 
●集群升级
 
14. 集群监控及排错
 
●ClouderaManager监控特性
 
●监控Hadoop集群
 
●Hadoop集群排错
 
●常见配置不当问题
 
15. 结论
 
 
 
 
课程
课时
课程概述
培训对象/学员基础
 
开发人员培养路径
 
Spark及Hadoop开发员
 
4天
了解Apache Spark的基础知识及其与Hadoop整体生态系统的集成方式。本课程将重温HDFS的基础内容,学习如何使用Sqoop/Flume摄取数据,利用Spark处理分布式数据,学习在Impala和Hive上数据建模,及在数据存储方面佳实践。
 
面向具有Scala和Python编程经验的开发人员。熟悉Linux命令行。适合于不熟悉或初次接触Hadoop的人员参加
 
Apache HBase
 
3天
学习如何运用HBase作为分布式数据存储实现低延迟查询和高度可扩展性的数据吞吐量,涵盖schema设计、应用程序编写、配置和维护。
 
面向计划使用HBase的开发人员和管理员。具有数据库和数据建模经验更佳(非必须)。具备Java相关知识更佳,Hadoop相关知识不作要求,但接受过相关培训则为参加本课程提供良好的基础。
 
Cloudera检索
 
3天
索引Hadoop数据和强有力的实时查询功能,并且可将Cloudera检索与外部应用程序进行集成。了解如何将全文本、交互式检索和可扩展的、灵活的索引导入Hadoop和企业数据中心(EDH)中。
 
面向熟悉Hadoop基本知识和Java、C、C++、Perl或Python编程经验的开发人员和数据工程师。培训对象应熟悉Linux命令行,但不要求具备Solr,HBase或SQL使用经验。
 
管理员培养路径
 
Apache Hadoop管理员 4天
从安装及配置、负载均衡及调整,以及诊断和解决部署问题等各方面了解Hadoop系统管理员的概念和实践。
 
面向需要建立或维护Hadoop集群的管理员。培训对象要求具备Linux基本知识。Hadoop相关知识不作要求。
 
Apache HBase 3天
学习如何运用HBase作为分布式数据存储实现低延迟查询和高度可扩展性的数据吞吐量,涵盖schema设计、应用程序编写、配置和维护。
 
面向计划使用HBase的开发人员和管理员。具有数据库和数据建模经验更佳(非必须)。具备Java相关知识更佳,Hadoop相关知识不作要求,但接受过相关培训则为参加本课程提供良好的基础。
 
数据分析师培养路径
 
数据分析师:Pig、Hive和Impala
 
4天
了解Apache Pig、Apache Hive及Apache Impala(孵化中)如何通过筛选、连接以及用户自定义函数进行数据转换和数据分析。
 
面向意欲使用SQL、脚本编程和基本Linux功能来操作Hadoop数据的分析师、BI、架构师和管理员。培训对象不要求具有Hadoop知识。
 
Spark和Hadoop上的数据科学
 
3天
了解数据科学家的工作内容、需要解决的问题以及其处理现实问题时应用的方法,以获得来自不同行业数据的业务价值。本课程中学员将学习并实现一个系统。
 
面向具备Hadoop基础知识(HDFS、MapReduce、Hadoop Streaming、Hive)的工程师、数据分析师、统计人员。培训对象具备熟练的脚本语言编程能力:Python是选;熟悉Perl或Ruby亦可。
  • 学校名称:IT培训网

    固定电话:18940085928

    授课地址:线下 预约名额

报名信息