温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。
Fayson的github:https://github.com/fayson/cdhproject
提示:代码块部分可以左右滑动查看噢
下图可以使用手机打开放大查看,高清原图下载地址:
https://github.com/fayson/cdhproject/blob/master/从入门到精通-Fayson带你玩转CDH.png
Fayson会持续的写作,本文会定期更新。
以下所有文章均为超链接,可以直接点击文章名跳转。
1.规划设计
1.1.on-premise部署规划
0001-《
CDH网络要求(Lenovo参考架构)
》
0062-《
如何为Hadoop集群选择正确的硬件
》
0158-《
如何给Hadoop集群划分角色
》
1.2.on private cloud部署规划
《如何在VMware中部署Hadoop》
《如何在OpenStack中部署Hadoop》
Fayson正在努力写...
1.3.on public cloud部署规划
Fayson暂无计划写。
2.安装/升级/卸载
2.1.安装
0002-《
CENTOS7.2安装CDH5.10和Kudu1.2(一)
》
0002-《
CENTOS7.2安装CDH5.10和Kudu1.2(二)
》
0024-《
CENTOS6.5安装CDH5.12.1(一)
》
0025-《
CENTOS6.5安装CDH5.12.1(二)
》
0030-《
如何在CDH中安装Kudu&Spark2&Kafka
》
0072-《
CDH安装前置准备
》
0073-《
CentOS6.5安装CDH5.13
》
0167-《
如何在Redhat7.3安装CDH5.14
》
2.2.一键安装
计划中...
2.3.升级
0009-《
如何升级Cloudera Manager和CDH
》
0095-《
如何通过CM升级Kafka0.11及Spark2.2
》
2.4.迁移
0007-《
如何迁移Cloudera Manager节点
》
2.5.卸载
0008-《
如何卸载CDH(附一键卸载github源码)
》
3.Cloudera Manager
3.1.产品介绍
0053-《
CDH5.13和CM5.13的新功能
》
0160-《
CDH5.14和CM5.14的新功能
》
3.2.扩容
0080-《
如何在CDH集群中加入异构设备
》
0089-《
如何给CDH集群增加Gateway节点
》
0110-《
如何给Kerberos环境下的CDH集群添加Gateway节点
》
0112-《
如何在非Kerberos环境下对CDH进行扩容
》
0126-《
如何为Kerberos环境的CDH集群在线扩容数据节点
》
3.3.减容
0115-《
如何使用Cloudera Manager在线为集群减容
》
3.4.使用
0003-《
如何在CDH中使用LZO压缩
》
0036-《
如何通过CM API优雅的获取元数据库密码
》
0040-《
如何重置Cloudera Manager的admin密码
》
0088-《
如何将CDH集群JAVA升级至JDK8
》
0090-《
如何将CDH从企业版降级为免费版
》
0091-《
如何将Kerberos环境下CDH集群JAVA升级至JDK8
》
0096-《
如何使用Cloudera Manager启用HDFS的HA
》
0098-《
如何使用Cloudera Manager禁用HDFS HA
》
0100-《
如何使用Cloudera Manager启用YARN的HA
》
0104-《
如何使用Cloudera Manager禁用YARN的HA
》
0117-《
如何修改CDH集群的DataNoe节点HOSTNAME
》
0163-《
如何修改CDH集群的IP地址
》
3.5.异常分析
0023-《
HOSTS配置问题导致集群异常故障分析
》
0034-《
CM启动报InnoDB engine not found分析
》
0044-《
CDH高可用集群误删NameNode故障恢复
》
0086-《
Cloudera Manager Server服务在RedHat7状态显示异常分析
》
4.Navigator
4.1.Navigator安装
计划中...
4.2.Navigator使用
计划中...
5.数据科学
5.1.基础环境
0012-《
什么是数据科学工作台?为什么数据科学家需要它?
》
0038-《
如何在CDH集群安装Anaconda&搭建Python私有源
》
0049-《
什么是sparklyr
》
0050-《
如何在Redhat中配置R环境
》
0051-《
如何在Redhat中安装R的包及搭建R的私有源
》
0052-《
如何使用R连接Hive与Impala
》
0057-《
PySpark数据类型转换异常分析
》
0118-《
如何在CDH集群上部署Python3运行环境及运行Python作业
》
5.2.CDSW
5.2.1.安装
0037-《
如何在Windows Server2008搭建DNS服务并配置泛域名解析
》
0047-《
如何利用Dnsmasq构建小型集群的本地DNS服务器
》
0077-《
如何在Windows Server2012搭建DNS服务并配置泛域名解析
》
0078-《
如何在CDH5.13中安装CDSW1.2
》
5.2.2.产品介绍
0063-《
CDSW1.2的新功能
》
0165-《
CDSW1.3的新功能
》
5.2.3.使用
0042-《
如何在CDSW中使用R绘制直方图
》
0054-《
如何使用CDSW在CDH集群通过sparklyr提交R的Spark作业
》
0055-《
如何使用CDSW在CDH中分布式运行所有R代码
》
0059-《
如何基于CDSW基础镜像定制Docker
》
0151-《
如何使用Nginx实现CDSW的跨网段访问
》
0156-《
如何修改CDSW服务的DNS和HOSTNAME
》
0159-《
如何在CDSW上运行TensorFlow
》
0161-《
如何在CDSW中定制Docker镜像
》
6.元数据库
6.1.MySQL
0029-《
如何实现CDH元数据库MySQL的主备
》
0058-《
如何在CDH集群的非元数据库节点安装MySQL5.7.12
》
0134-《
如何实现CDH元数据库MySQL的主主互备
》
0135-《
如何实现CDH元数据库MySQL的高可用
》
0136-《
如何修改CM及CDH元数据库配置
》
7.Hadoop组件
7.1.Hive
0004-《
Hive表字段Comment中文乱码
》
0010-《
Hive多分隔符支持示例
》
0011-《
如何在Hive&Impala中使用UDF
》
0014-《
Hive中的Timestamp类型日期与Impala中显示不一致分析
》
0026-《
Hive使用十六进制分隔符异常分析
》
0043-《
如何在CDH中使用HPLSQL实现存储过程
》
0083-《
如何使用HAProxy实现HiveServer2负载均衡
》
0084-《
如何使用Zookeeper实现HiveServer2的HA
》
0099-《
如何使用java代码通过JDBC连接Hive(附github源码)
》
0102-《
Hive中的Timestamp类型日期与Impala中显示不一致分析(补充)
》
0144-《
Hive Load本地数据文件异常分析
》
0146-《
如何向Hive表加载数据
》
0149-《
如何使用java代码通过JDBC访问Sentry环境下的Hive
》
7.2.Impala
0039-《
如何使用Python Impyla客户端连接Hive和Impala
》
0070-《
如何使用Beeline连接Impala
》
0081-《
如何使用Nginx实现Impala负载均衡
》
0082-《
如何使用HAProxy实现Impala的负载均衡
》
0097-《
如何使用java代码通过JDBC连接Impala(附Github源码)
》
0113-《
Impala升级为Apache顶级项目
》
0124-《
如何使用HAProxy实现Kerberos环境下的Impala负载均衡
》
0131-《
如何在Kerberos的Linux上安装及配置Impala的ODBC驱动
》
0147-《
如何使用Java访问集成OpenLDAP并启用Sentry的Impala和Hive
》
0154-《
如何在Impala中实现拉链表
》
0162-《
使用Java代码通过JDBC连接只启用Sentry的Impala异常分析
》
7.3.HBase
0045-《
Cloudera Labs中的Phoenix
》
0066-《
如何使用Java连接Kerberos的HBase
》
0071-《
如何在CDH中使用HBase快照
》
7.4.Hue
0056-《
如何重置Hue用户密码
》
0152-《
如何在Hue中配置已启用SSL的HttpFS服务
》
0153-《
Hue禁止用户下载数据问题分析
》
0164-《
如何在Hue中配置HiveServer2的负载均衡
》
0168-《
如何在Hue中配置Impala的负载均衡
》
7.5.Sqoop
0121-《
Sqoop抽取Hive Parquet表数据到MySQL异常分析
》
7.6.Solr
0103-《
如何使用Java代码访问CDH的Solr服务
》
0114-《
如何使用Hue通过数据文件创建Collections
》
7.7.Oozie
0060-《
如何使用Hue创建Spark1和Spark2的Oozie工作流
》
0061-《
如何使用Hue创建Spark2的Oozie工作流(补充)
》
0075-《
如何在Hue中创建Ssh的Oozie工作流
》
0119-《
如何使用Hue上创建一个完整Oozie工作流
》
0120-《
Hue中使用Oozie创建Ssh工作流时sudo命令执行失败问题分析
》
0123-《
Hue中使用Oozie创建Shell工作流在脚本中切换不同用户
》
0132-《
使用Hue创建Ssh的Oozie工作流时重定向输出日志报错分析
》
0133-《
在Kerberos环境使用Hue通过Oozie执行Sqoop作业报错异常分析
》
7.8.HDFS
0068-《
如何在CDH集群使用HDFS快照
》
0105-《
如何使用Java代码访问HDFS.docx
》
0125-《
如何使用Java代码访问HDFS.docx
》
0130-《
如何将HDFS文件系统挂载到Linux本地文件系统
》
0148-《
如何为HttpFS服务配置SSL
》
7.9.Kudu
0020-《
使用JDBC向Kudu表插入中文字符-双引号的秘密
》
0021-《
使用JDBC向Kudu表插入中文字符-cast的秘密
》
0085-《
如何在Kudu1.5中使用Sentry授权
》
0128-《
如何迁移Kudu1.2的WAL和Data目录
》
7.10.Kafka
0022-《
如何永久删除Kafka的Topic
》
0065-《
如何通过Cloudera Manager为Kafka启用Kerberos及使用
》
0069-《
如何使用Java连接Kerberos的Kafka
》
7.11.YARN
0019-《
Yarn的JobHistory目录权限问题导致MapReduce作业异常
》
0107-《
如何跨平台在本地开发环境提交MapReduce作业到CDH集群
》
0108-《
如何使用hadoop命令向CDH集群提交MapReduce作业
》
0109-《
如何使用java命令从非集群节点向CDH集群提交MapReduce作业
》
0129-《
如何在HDFS上查看YARN历史作业运行日志
》
7.12.Spark
0016-《
Avro序列化&反序列化和Spark读取Avro数据
》
0017-《
Spark的HistoryServer不能查看到所有历史作业分析
》
0041-《
如何使用Intellij搭建Spark开发环境
》
0064-《
如何通过Cloudera Manager配置Spark1和Spark2的运行环境
》
0079-《
如何在CDH中启用Spark Thrift
》
7.13.Zookeeper
0006-《
Zookeeper指标分析
》
0101-《
Kerberos环境下删除ZooKeeper服务注册信息问题分析
》
8.多租户
8.1.静态资源管理
计划中...
8.2.动态资源管理/YARN
计划中...
8.3.动态资源管理/Impala
计划中...
8.4.安全
8.4.1.认证
8.4.1.1.Kerberos
0005-《
Windows Kerberos客户端配置并访问CDH
》
0027-《
如何在CDH集群启用Kerberos
》
0087-《
如何配置Kerberos服务的高可用
》
8.4.1.2.OpenLDAP
0137-《
1.如何在CentOS6.5安装OpenLDAP并配置客户端
》
0138-《
2.OpenLDAP集成SSH登录并使用SSSD同步用户
》
0139-《
3.如何实现OpenLDAP的主主同步
》
0140-《
4. 如何为Hive配置OpenLDAP认证
》
0141-《
5.如何为Impala配置OpenLDAP认证
》
0142-《
6.如何为Hue配置OpenLDAP认证
》
0150-《
7.如何在OpenLDAP中实现将一个用户添加到多个组
》
0166-《
如何集成OpenLDAP+Sentry.docx
》
8.4.1.3.AD
计划中...
8.4.2.认证
8.4.2.1.授权
0015-《
如何使用Sentry管理Hive外部表权限
》
0028-《
如何在CDH未启用认证的情况下安装及使用Sentry
》
0031-《
如何在CDH启用Kerberos的情况下安装及使用Sentry(一)
》
0032-《
如何在CDH启用Kerberos的情况下安装及使用Sentry(二)
》
0033-《
如何在Hue中使用Sentry
》
0035-《
如何使用Sentry管理Hive外部表(补充)
》
0067-《
Sentry赋予server1权限给hive以外用户时ACL不同步问题分析
》
0074-《
如何在启用Sentry的CDH集群中使用UDF
》
0155-《
如何查看集成Sentry后Hive作业的真实用户
》
8.4.2.2.加密
0092-《
什么是HDFS透明加密
》
0111-《
如何在CDH实现HDFS透明加密
》
8.4.2.3.审计
计划中...
8.5.集群资源使用报告
0157-《
如何在CM中启用YARN的使用率报告
》
9.灾备
9.1.HDFS
0013-《
如何在Kerberos与非Kerberos的CDH集群BDR不可用时复制数据
》
9.2.HBase
0076-《
如何使用HBase快照实现跨集群全量与增量数据迁移
》
10.运维
10.1.监控
计划中...
10.2.告警
计划中...
11.外部工具集成
11.1.Tableau
0093-《
如何安装Tableau并连接CDH的Hive/Impala
》
0094-《
如何通过Tableau连接Kerberos的Hive/Impala
》
12.应用场景
12.1.实时
0116-《
如何在Kerberos环境使用Flume采集Kafka数据并写入HDFS
》
0122-《
非Kerberos环境下Kafka数据到Flume进Hive表
》
0145-《
如何使用Spark Streaming读取HBase的数据并写入到HDFS
》
提示:代码块部分可以左右滑动查看噢
为天地立心,为生民立命,为往圣继绝学,为万世开太平。
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。
打赏专用二维码
推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。
原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操