欢迎来IT培训班!

咨询热线 18940085928

IT培训网 > 北京IT培训 > 北京软件测试培训 >

2018Spark大数据处理案例分析高级工程师培训-中联

授课机构:IT培训班

地址:北京

网报价格:详询

课程原价:

咨询热线:18940085928

课程详情 相关推荐 学校地址 网上报名

关于举办 “Spark大数据处理与案例分析高级工程师” 实战培训班的通知 各有关单位: 当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。MapReduce作为一个经典的分布式计算框架,已经广为人知,且得到了广泛的应用,但MapReduce自身存在很多问题,包括迭代式计算和DAG计算等类型的数据挖掘与机器学习算法性能低下,不能很好地利用内存资源,编程复杂度较高等。为了克服MapReduce的众多问题,新型计算框架出现了。Spark已经被不少互联网公司采用,大部分数据挖掘算法和迭代式算法在逐步MapReduce平台迁移到Spark平台中,包括阿里巴巴,腾讯,百度,优酷土豆,360,支付宝等互联网公司已经在线上产品中使用spark,且取得了令人满意的效果,另外,部分省份的运营商也正在尝试使用spark解决数据挖掘和分析问题,部分银行,如工商银行,也正在尝试spark平台。因此*软件行业产业培训网决定开展“Spark大数据处理与案例分析高级工程师”实战培训班,本次培训由中联软博(北京)科技有限公司具体承办,望相关单位收到通知后积极参加。相关培训事宜如下: 一、 培训时间及地点 北京 上海 广州 成都 常年开课 二、课程目标 本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程,涉及Spark、系统基础知识,概念及架构, Spark实战技巧,Spark经典案例等。 通过本课程实践,帮助学员对Spark生态系统有一个清晰明了的认识;理解Spark、系统适用的场景;掌握Spark等初中级应用开发技能;搭建稳定可靠的Spark集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴等 三、培训对象 各地*云计算物联网产业相关负责人,各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人 四、师资介绍 张老师:阿里大数据高级专家,国内资深的Spark、Hadoop技术专家、虚拟化专家,对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生态系统中的技术进行了多年的深入的研究,更主要的是这些技术在大量的实际项目中得到广泛的应用,因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目有:某电信集团网络优化、*移动某省移动公司请账单系统和某省移动详单实时查询系统、*银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商*用户上网记录、某省交通*违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。 五、颁发证书 参加相关培训并通过考试的学员,可以获得: 1.工业和信息化部颁发的《*计算机专业技术人才证书》-大数据处理高级工程师。该证书可作为专业技术人员职业能力考核的证明,以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。 注:请学员带一寸彩照2张(背面注明姓名)、身份证复印件一张。 六、培训特色 本课程将分别从理论基础知识,系统搭建以及应用案例三方面对spark进行介绍。 采用循序渐进的课程讲授方法,首先讲解Spark系统基础知识,概念及架构,之后讲解Spark实战技巧,*详尽地介绍Spark经典案例,使培训者从概念到实战,均会有收获和提高。 七、培训费用及须知 培训费6800元。(含培训费、资料费、考试费、证书费、讲义光盘费等)。需要住宿学员请提前通知,可统一安排,费用自理。 八、培训大纲(3天课程) 课程模块 课程主题 主要内容(内容可以根据学员的要求可以现场调整) 模块一 Spark 生态介绍  Mapreduce、storm和spark模型的比较和使用场景介绍  Spark产生背景  Spark(内存计算框架)  SparkSteaming(流式计算框架)  Spark SQL(ad-hoc)  Mllib(MachineLearning)  GraphX(bagel将被代)  DlinkDB介绍  SparkR介绍 模块二 Spark 安装部署  Spark安装简介  Spark的源码编译  Spark Standalone安装  Spark应用程序部署工具spark-submit  Spark的高可用性部署 模块三 Spark 运行架构和解析  Spark的运行架构 • 基本术语 • 运行架构 • Spark on Standalone运行过程 • Spark on YARN 运行过程  Spark运行实例解析 • Spark on Standalone实例解析 • Spark on YARN实例解析 • 比较 Standalone与YARN模式下的优缺点 模块四 Spark scala编程 • Scala基本语法与高阶语法 • Scala基本语法 • Scala开发环境搭建 • Scala开发Spark应用程序 • 使用java编程 • 使用scala编程 • 使用python编程 模块五 Spark 编程模型和解析  Spark的编程模型 • Spark编程模型解析 • RDD的特点、操作、依赖关系 • Spark应用程序的配置 • Spark的架构 • spark的容错机制 • 数据的本地性 • 缓存策略介绍 宽依赖与窄依赖 模块六 Spark 数据挖掘  Mllib的介绍  graphX核心原理  table operator和graph operator区别  vertices、edges和triplets介绍  构建一个graph  SparkR原理  SparkR实战 模块七 Spark Streaming原理和实践  Spark Streaming与Strom的区别  Kafka的部署  Kafka与Spark Streaming的整合  Spark Streaming原理 • Spark流式处理架构 • DStream的特点 • Dstream的操作和RDD的区别 • 带状态的transformation与无状态transformation • Spark Streaming的优化  Spark Streaming实例 • Streaming的容错机制 • streaming在yarn模式下的注意事项 对于需结合第三方存储机制的与流式处理方案 • 文本实例 • 网络数据处理 • Kafka+Spark Streaming实现日志的实时分析案例 模块八 Spark的优化  序列化优化——Kryo  Spark参数优化实战  Spark 任务的均匀分布策略  Partition key倾斜的解决方案  Spark任务的监控  GC的优化  Spark Streaming吞吐量优化  Spark RDD使用内存的优化策略  Spark在使用中的感想分享 模块九 Spark的数据源  Spark与HDFS的整合  HDFS RDD原理和实现  Spark与Hbase的整合  Spark与Cassendera整合  Hbase RDD的分区读取  Hbase RDD的原理和实现  Spark parallelism RDD的工作机制 模块十 Spark Streaming应用及案例分析  Spark Streaming产生动机  Spark Streaming程序设计 (1)创建DStream (2)基于DStream进行流式处理  Spark Streaming容错与性能优化 (1)Spark Streaming容错机制 (2)如何对spark Streaming进行优化  Spark Streaming案例分析 基于Spark Streaming的用户标签系统,内容包括项目背景,项目架构以及实施方法 模块十一 典型项目 案例实战  基于spark日志分析  个性化推荐系统:带你揭开其神秘面纱  在线投放引擎  揭开淘宝点击推荐系统的神秘面纱  淘宝数据服务架构—实时计算平台
  • 学校名称:IT培训网

    固定电话:18940085928

    授课地址:线下 预约名额

报名信息