• 首页
  • 关于我们
  • 全部课程
  • 企业培训
  • 视频中心
  • 新闻资讯
  • 实验室
  • 考试服务
  • 联系方式
    • 红帽专题
    • 云计算虚拟化专题
    • 大数据专题
    • 数据库专题
    • 网络数通专题
    • 信息安全专题
    • 软件开发专题
    • 项目管理专题
  • ꁸ 回到顶部
  • ꂅ 0551-65770388
  • ꁗ QQ客服
  • ꀥ 微信二维码

Cloudera 数据分析师培训

 

VMware认证专家
VMware认证专家
华为认证
华为认证
红帽认证
红帽认证
2020-01-04
中国电信安徽公司千人千万燎原计划大数据分析和挖掘企业培训
2020-01-04
国家电网2019年信息安全技术培训顺利开展
2020-01-04
中国电信学院(上海)云网融合师资导师集训培训授课顺利完成
2020-01-04
安徽省法院2019年数据库专题知识讲座

企业内训新闻

课程大纲下载

热门课程

课程表

全部课程

视频

视频中心

预约

立即预约

考试服务

企业培训

关于我们

培训计划off
考试
朋友,我们
电话
끠 搜索

0551-65770388

ia_300000005

课程名称:Cloudera 数据分析师培训

开班类型:周末+脱产班

推荐星级:5星

课程时长:4天/24小时

授课方式:面授、远程

分享到: 0
在线咨询报名
企业定制培训
  • 课程概述
  • 考试介绍
  • 开班计划
  • 常见问题
  • 课程描述:

    了解Apache Pig、Apache Hive及Apache Impala如何通过删选、连接进行数据转换和数据分析,以及利用其它常见技术自定义用户功能。

     

    培训对象:

    需要使用Hadoop来进行数据分析的数据分析员,商业分析员,开发员以及系统管理员。 

     

    学员基础:

    建议需具备SQL、简单Unix/Linux命令和脚本编程经验。无需Hadoop基础和经验。 

     

    学习内容:

    Apache Hadoop基础及数据ETL(包括数据提取、转换及加载)、如何通过使用Hadoop相关工具将数据载入Hadoop并进行分析处理
    如何使用Apache Pig对多个关联的数据集进行join操作以及如何分析不同的独立数据
    如何使用Apache Hive:通过定义合适的表来组织数据、执行各种数据变换、简化复杂查询
    如何使用Impala来对存储在HDFS里的大规模数据进行实时和交互式的分析查询
    如何根据数据分析任务来选择合适的数据分析工具

     

    教学大纲:
     
    简介
    关于该课程 

    关于 Cloudera 
    课程的逻辑介绍 

     

    Hadoop 基础
    Hadoop的动机
    Hadoop 概况
    HDFS
    MapReduce
    Hadoop 生态圈
    实验场景介绍
    实验: 用Hadoop工具导入数据

     

    Pig简介 
    什么是 Pig?
    Pig的特性
    Pig使用案例
    和Pig交互

     

    用Pig进行基本数据分析
    Pig Latin 语法
    数据装载
    简单数据类型
    Field 定义
    数据输出
    表结构视图
    数据过滤和排序
    常用功能
    实验: 用Pig 执行ETL流程

     

    Pig处理复杂数据
    存储格式
    复杂/Nested嵌套的数据类型 
    成群
    处理复杂数据的内置功能
    迭代成群的数据 
    实验: 用Pig分析广告战役的数据 

     

    Pig的多数据组操作 
    集成多数据组的技术 
    Pig链接多数据组
    组操作
    数据组分裂
    实验: 用Pig分析离散的数据组 

     

    扩展 Pig
    用参数带来灵活性 
    Macros 和 Imports 
    UDFs 
    Contributed Functions 
    用其他语言和Pig一起处理数据 
    实验: 用流处理和UDFs扩展Pig 

     

    Pig 故障排查和优化 
    Pig故障排查> 记录日志
    使用Hadoop Web 界面
    演示: 用Web 界面排查一个故障的任务
    Data 采样和故障排查
    性能简介
    理解执行计划(Execution Plan) 
    提高你Pig任务性能的窍门 

     

    Hive简介
    什么是 Hive? 
    Hive 表结构和数据存储 
    对比Hive和传统数据库 
    Hive vs. Pig 
    Hive 使用案例
    >和Hive的互操作

     

    Hive的关系数据分析
    Hive 数据库和表
    基本HiveQL 语法
    数据类型
    链接数据组 
    通用内建功能
    实验: 在Shell, 脚本和Hue上运行运行Hive 查询 

     

    Hive 数据管理
    Hive 数据格式
    创建数据库和 由 Hive管理的表
    向 Hive装载 数据
    改变数据库和表
    自治表格
    用视图简化查询
    排列查询结果
    数据的访问控制
    实验: Hive的数据管理 

     

    Hive 的文本处理
    文本处理简介
    重要的字符串(String)功能 
    使用Hive 的标准表达式(Regular Expressions) 
    Sentiment Analysis and N-Grams 
    实验: 通过敏感性分析(Sentiment Analysis)收获洞察

     

    Hive 优化
    理解查询性能 
    控制任务执行计划
    分区
    Bucketing 
    索引数据

     

    Hive扩展 
    SerDes 
    用定制脚本完成数据转型 
    自定义功能
    Parameterized Queries 
    实验: Hive的数据转型 

     

    Impala 简介
    什么是 Impala? 
    Impala 和 Hive和 Pig的不同 
    局限和未来方向
    使用Impala Shell 

     

    采样Impala分析数据
    基本语法
    数据类型
    过滤, 排序, and Limiting Results 
    链接和组队数据 
    提升 Impala 性能
    实验: Impala的交互式分析 

     

    为任务选择最优的工具
    对比 MapReduce, Pig, Hive, Impala和关系数据库

  • 首页
  • 关于我们
  • 全部课程
  • 企业培训
  • 视频中心
  • 新闻资讯
  • 考试服务
  • 联系方式
版权所有© 安徽肯耐博网络技术有限公司
  • 安徽肯耐博网络技术有限公司
  • 安徽省合肥市政务区休宁路中侨中心B座1907室
  • 0551-65770388
  • jiangtao@openlabhf.cn
qrcode_for_gh_e69609bc80e5_1280
分享到: 0
 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6
 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6
 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6
 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6