余晖落尽暮晚霞,黄昏迟暮远山寻
本站
当前位置:网站首页 > 编程知识 > 正文

0169-从入门到精通-Fayson带你玩转CDH

xiyangw 2023-05-14 11:39 12 浏览 0 评论

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

Fayson的github:https://github.com/fayson/cdhproject

0169-从入门到精通-Fayson带你玩转CDH

提示:代码块部分可以左右滑动查看噢

下图可以使用手机打开放大查看,高清原图下载地址:

https://github.com/fayson/cdhproject/blob/master/从入门到精通-Fayson带你玩转CDH.png

Fayson会持续的写作,本文会定期更新。

以下所有文章均为超链接,可以直接点击文章名跳转。

1.规划设计

1.1.on-premise部署规划


0001-《

CDH网络要求(Lenovo参考架构)

0062-《

如何为Hadoop集群选择正确的硬件

0158-《

如何给Hadoop集群划分角色

1.2.on private cloud部署规划


《如何在VMware中部署Hadoop》

《如何在OpenStack中部署Hadoop》

Fayson正在努力写...

1.3.on public cloud部署规划


Fayson暂无计划写。

2.安装/升级/卸载

2.1.安装


0002-《

CENTOS7.2安装CDH5.10和Kudu1.2(一)

0002-《

CENTOS7.2安装CDH5.10和Kudu1.2(二)

0024-《

CENTOS6.5安装CDH5.12.1(一)

0025-《

CENTOS6.5安装CDH5.12.1(二)

0030-《

如何在CDH中安装Kudu&Spark2&Kafka

0072-《

CDH安装前置准备

0073-《

CentOS6.5安装CDH5.13

0167-《

如何在Redhat7.3安装CDH5.14

2.2.一键安装


计划中...

2.3.升级


0009-《

如何升级Cloudera Manager和CDH

0095-《

如何通过CM升级Kafka0.11及Spark2.2

2.4.迁移


0007-《

如何迁移Cloudera Manager节点

2.5.卸载


0008-《

如何卸载CDH(附一键卸载github源码)

3.Cloudera Manager

3.1.产品介绍


0053-《

CDH5.13和CM5.13的新功能

0160-《

CDH5.14和CM5.14的新功能

3.2.扩容


0080-《

如何在CDH集群中加入异构设备

0089-《

如何给CDH集群增加Gateway节点

0110-《

如何给Kerberos环境下的CDH集群添加Gateway节点

0112-《

如何在非Kerberos环境下对CDH进行扩容

0126-《

如何为Kerberos环境的CDH集群在线扩容数据节点

3.3.减容


0115-《

如何使用Cloudera Manager在线为集群减容

3.4.使用


0003-《

如何在CDH中使用LZO压缩

0036-《

如何通过CM API优雅的获取元数据库密码

0040-《

如何重置Cloudera Manager的admin密码

0088-《

如何将CDH集群JAVA升级至JDK8

0090-《

如何将CDH从企业版降级为免费版

0091-《

如何将Kerberos环境下CDH集群JAVA升级至JDK8

0096-《

如何使用Cloudera Manager启用HDFS的HA

0098-《

如何使用Cloudera Manager禁用HDFS HA

0100-《

如何使用Cloudera Manager启用YARN的HA

0104-《

如何使用Cloudera Manager禁用YARN的HA

0117-《

如何修改CDH集群的DataNoe节点HOSTNAME

0163-《

如何修改CDH集群的IP地址

3.5.异常分析


0023-《

HOSTS配置问题导致集群异常故障分析

0034-《

CM启动报InnoDB engine not found分析

0044-《

CDH高可用集群误删NameNode故障恢复

0086-《

Cloudera Manager Server服务在RedHat7状态显示异常分析

4.Navigator

4.1.Navigator安装


计划中...

4.2.Navigator使用


计划中...

5.数据科学

5.1.基础环境


0012-《

什么是数据科学工作台?为什么数据科学家需要它?

0038-《

如何在CDH集群安装Anaconda&搭建Python私有源

0049-《

什么是sparklyr

0050-《

如何在Redhat中配置R环境

0051-《

如何在Redhat中安装R的包及搭建R的私有源

0052-《

如何使用R连接Hive与Impala

0057-《

PySpark数据类型转换异常分析

0118-《

如何在CDH集群上部署Python3运行环境及运行Python作业

5.2.CDSW

5.2.1.安装


0037-《

如何在Windows Server2008搭建DNS服务并配置泛域名解析

0047-《

如何利用Dnsmasq构建小型集群的本地DNS服务器

0077-《

如何在Windows Server2012搭建DNS服务并配置泛域名解析

0078-《

如何在CDH5.13中安装CDSW1.2

5.2.2.产品介绍


0063-《

CDSW1.2的新功能

0165-《

CDSW1.3的新功能

5.2.3.使用


0042-《

如何在CDSW中使用R绘制直方图

0054-《

如何使用CDSW在CDH集群通过sparklyr提交R的Spark作业

0055-《

如何使用CDSW在CDH中分布式运行所有R代码

0059-《

如何基于CDSW基础镜像定制Docker

0151-《

如何使用Nginx实现CDSW的跨网段访问

0156-《

如何修改CDSW服务的DNS和HOSTNAME

0159-《

如何在CDSW上运行TensorFlow

0161-《

如何在CDSW中定制Docker镜像

6.元数据库

6.1.MySQL


0029-《

如何实现CDH元数据库MySQL的主备

0058-《

如何在CDH集群的非元数据库节点安装MySQL5.7.12

0134-《

如何实现CDH元数据库MySQL的主主互备

0135-《

如何实现CDH元数据库MySQL的高可用

0136-《

如何修改CM及CDH元数据库配置

7.Hadoop组件

7.1.Hive


0004-《

Hive表字段Comment中文乱码

0010-《

Hive多分隔符支持示例

0011-《

如何在Hive&Impala中使用UDF

0014-《

Hive中的Timestamp类型日期与Impala中显示不一致分析

0026-《

Hive使用十六进制分隔符异常分析

0043-《

如何在CDH中使用HPLSQL实现存储过程

0083-《

如何使用HAProxy实现HiveServer2负载均衡

0084-《

如何使用Zookeeper实现HiveServer2的HA

0099-《

如何使用java代码通过JDBC连接Hive(附github源码)

0102-《

Hive中的Timestamp类型日期与Impala中显示不一致分析(补充)

0144-《

Hive Load本地数据文件异常分析

0146-《

如何向Hive表加载数据

0149-《

如何使用java代码通过JDBC访问Sentry环境下的Hive

7.2.Impala


0039-《

如何使用Python Impyla客户端连接Hive和Impala

0070-《

如何使用Beeline连接Impala

0081-《

如何使用Nginx实现Impala负载均衡

0082-《

如何使用HAProxy实现Impala的负载均衡

0097-《

如何使用java代码通过JDBC连接Impala(附Github源码)

0113-《

Impala升级为Apache顶级项目

0124-《

如何使用HAProxy实现Kerberos环境下的Impala负载均衡

0131-《

如何在Kerberos的Linux上安装及配置Impala的ODBC驱动

0147-《

如何使用Java访问集成OpenLDAP并启用Sentry的Impala和Hive

0154-《

如何在Impala中实现拉链表

0162-《

使用Java代码通过JDBC连接只启用Sentry的Impala异常分析

7.3.HBase


0045-《

Cloudera Labs中的Phoenix

0066-《

如何使用Java连接Kerberos的HBase

0071-《

如何在CDH中使用HBase快照

7.4.Hue


0056-《

如何重置Hue用户密码

0152-《

如何在Hue中配置已启用SSL的HttpFS服务

0153-《

Hue禁止用户下载数据问题分析

0164-《

如何在Hue中配置HiveServer2的负载均衡

0168-《

如何在Hue中配置Impala的负载均衡

7.5.Sqoop


0121-《

Sqoop抽取Hive Parquet表数据到MySQL异常分析

7.6.Solr


0103-《

如何使用Java代码访问CDH的Solr服务

0114-《

如何使用Hue通过数据文件创建Collections

7.7.Oozie


0060-《

如何使用Hue创建Spark1和Spark2的Oozie工作流

0061-《

如何使用Hue创建Spark2的Oozie工作流(补充)

0075-《

如何在Hue中创建Ssh的Oozie工作流

0119-《

如何使用Hue上创建一个完整Oozie工作流

0120-《

Hue中使用Oozie创建Ssh工作流时sudo命令执行失败问题分析

0123-《

Hue中使用Oozie创建Shell工作流在脚本中切换不同用户

0132-《

使用Hue创建Ssh的Oozie工作流时重定向输出日志报错分析

0133-《

在Kerberos环境使用Hue通过Oozie执行Sqoop作业报错异常分析

7.8.HDFS


0068-《

如何在CDH集群使用HDFS快照

0105-《

如何使用Java代码访问HDFS.docx

0125-《

如何使用Java代码访问HDFS.docx

0130-《

如何将HDFS文件系统挂载到Linux本地文件系统

0148-《

如何为HttpFS服务配置SSL

7.9.Kudu


0020-《

使用JDBC向Kudu表插入中文字符-双引号的秘密

0021-《

使用JDBC向Kudu表插入中文字符-cast的秘密

0085-《

如何在Kudu1.5中使用Sentry授权

0128-《

如何迁移Kudu1.2的WAL和Data目录

7.10.Kafka


0022-《

如何永久删除Kafka的Topic

0065-《

如何通过Cloudera Manager为Kafka启用Kerberos及使用

0069-《

如何使用Java连接Kerberos的Kafka

7.11.YARN


0019-《

Yarn的JobHistory目录权限问题导致MapReduce作业异常

0107-《

如何跨平台在本地开发环境提交MapReduce作业到CDH集群

0108-《

如何使用hadoop命令向CDH集群提交MapReduce作业

0109-《

如何使用java命令从非集群节点向CDH集群提交MapReduce作业

0129-《

如何在HDFS上查看YARN历史作业运行日志

7.12.Spark


0016-《

Avro序列化&反序列化和Spark读取Avro数据

0017-《

Spark的HistoryServer不能查看到所有历史作业分析

0041-《

如何使用Intellij搭建Spark开发环境

0064-《

如何通过Cloudera Manager配置Spark1和Spark2的运行环境

0079-《

如何在CDH中启用Spark Thrift

7.13.Zookeeper


0006-《

Zookeeper指标分析

0101-《

Kerberos环境下删除ZooKeeper服务注册信息问题分析

8.多租户

8.1.静态资源管理


计划中...

8.2.动态资源管理/YARN


计划中...

8.3.动态资源管理/Impala


计划中...

8.4.安全

8.4.1.认证

8.4.1.1.Kerberos


0005-《

Windows Kerberos客户端配置并访问CDH

0027-《

如何在CDH集群启用Kerberos

0087-《

如何配置Kerberos服务的高可用

8.4.1.2.OpenLDAP


0137-《

1.如何在CentOS6.5安装OpenLDAP并配置客户端

0138-《

2.OpenLDAP集成SSH登录并使用SSSD同步用户

0139-《

3.如何实现OpenLDAP的主主同步

0140-《

4. 如何为Hive配置OpenLDAP认证

0141-《

5.如何为Impala配置OpenLDAP认证

0142-《

6.如何为Hue配置OpenLDAP认证

0150-《

7.如何在OpenLDAP中实现将一个用户添加到多个组

0166-《

如何集成OpenLDAP+Sentry.docx

8.4.1.3.AD


计划中...

8.4.2.认证

8.4.2.1.授权


0015-《

如何使用Sentry管理Hive外部表权限

0028-《

如何在CDH未启用认证的情况下安装及使用Sentry

0031-《

如何在CDH启用Kerberos的情况下安装及使用Sentry(一)

0032-《

如何在CDH启用Kerberos的情况下安装及使用Sentry(二)

0033-《

如何在Hue中使用Sentry

0035-《

如何使用Sentry管理Hive外部表(补充)

0067-《

Sentry赋予server1权限给hive以外用户时ACL不同步问题分析

0074-《

如何在启用Sentry的CDH集群中使用UDF

0155-《

如何查看集成Sentry后Hive作业的真实用户

8.4.2.2.加密


0092-《

什么是HDFS透明加密

0111-《

如何在CDH实现HDFS透明加密

8.4.2.3.审计


计划中...

8.5.集群资源使用报告


0157-《

如何在CM中启用YARN的使用率报告

9.灾备

9.1.HDFS


0013-《

如何在Kerberos与非Kerberos的CDH集群BDR不可用时复制数据

9.2.HBase


0076-《

如何使用HBase快照实现跨集群全量与增量数据迁移

10.运维

10.1.监控


计划中...

10.2.告警


计划中...

11.外部工具集成

11.1.Tableau


0093-《

如何安装Tableau并连接CDH的Hive/Impala

0094-《

如何通过Tableau连接Kerberos的Hive/Impala

12.应用场景

12.1.实时


0116-《

如何在Kerberos环境使用Flume采集Kafka数据并写入HDFS

0122-《

非Kerberos环境下Kafka数据到Flume进Hive表

0145-《

如何使用Spark Streaming读取HBase的数据并写入到HDFS

提示:代码块部分可以左右滑动查看噢

为天地立心,为生民立命,为往圣继绝学,为万世开太平。

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

打赏专用二维码

推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

相关推荐

辞旧迎新,新手使用Containerd时的几点须知

相信大家在2020年岁末都被Kubernetes即将抛弃Docker的消息刷屏了。事实上作为接替Docker运行时的Containerd在早在Kubernetes1.7时就能直接与Kubelet集成使...

分布式日志系统ELK+skywalking分布式链路完整搭建流程

开头在分布式系统中,日志跟踪是一件很令程序员头疼的问题,在遇到生产问题时,如果是多节点需要打开多节点服务器去跟踪问题,如果下游也是多节点且调用多个服务,那就更麻烦,再者,如果没有分布式链路,在生产日志...

Linux用户和用户组管理

1、用户账户概述-AAA介绍AAA指的是Authentication、Authorization、Accounting,即认证、授权和审计。?认证:验证用户是否可以获得权限,是3A的第一步,即验证身份...

linux查看最后N条日志

其实很简单,只需要用到tail这个命令tail-100catalina.out输入以上命令,就能列出catalina.out的最后100行。...

解决linux系统日志时间错误的问题

今天发现一台虚拟机下的系统日志:/var/log/messages,文件时间戳不对,跟正常时间差了12个小时。按网上说的执行了servicersyslogrestart重启syslog服务,还是不...

全程软件测试(六十二):软件测试工作如何运用Linux—读书笔记

从事过软件测试的小伙们就会明白会使用Linux是多么重要的一件事,工作时需要用到,面试时会被问到,简历中需要写到。对于软件测试人员来说,不需要你多么熟练使用Linux所有命令,也不需要你对Linux...

Linux运维之为Nginx添加错误日志(error_log)配置

Nginx错误日志信息介绍配置记录Nginx的错误信息是调试Nginx服务的重要手段,属于核心功能模块(nginx_core_module)的参数,该参数名字为error_log,可以放在不同的虚机主...

Linux使用swatchdog实时监控日志文件的变化

1.前言本教程主要讲解在Linux系统中如何使用swatchdog实时监控日志文件的变化。swatchdog(SimpleWATCHDOG)是一个简单的Perl脚本,用于监视类Unix系统(比如...

syslog服务详解

背景:需求来自于一个客户想将服务器的日志转发到自己的日志服务器上,所以希望我们能提供这个转发的功能,同时还要满足syslog协议。1什么是syslog服务1.1syslog标准协议如下图这里的fa...

linux日志文件的管理、备份及日志服务器的搭建

日志文件存放目录:/var/log[root@xinglog]#cd/var/log[root@xinglog]#lsmessages:系统日志secure:登录日志———————————...

运维之日志管理简介

日志简介在运维过程中,日志是必不可少的东西,通过日志可以快速发现问题所在。日志分类日志分类,对不同的日志进行不同维度的分析。操作系统日志操作系统是基础,应用都是在其之上;操作系统日志的分析,可以反馈出...

Apache Log4j 爆核弹级漏洞,Spring Boot 默认日志框架就能完美躲过

这两天沸沸扬扬的Log4j2漏洞门事件炒得热火朝天:突发!ApacheLog4j2报核弹级漏洞。。赶紧修复!!|Java技术栈|Java|SpringBoot|Spring...

Linux服务器存在大量log日志,如何快速定位错误?

来源:blog.csdn.net/nan1996jiang/articlep/details/109550303针对大量log日志快速定位错误地方tail/head简单命令使用:附加针对大量log日志...

Linux中查看日志文件的正确姿势,求你别tail走天下了!

作为一个后端开发工程师,在Linux中查看查看文件内容是基本操作了。尤其是通常要分析日志文件排查问题,那么我们应该如何正确打开日志文件呢?对于我这种小菜鸡来说,第一反应就是cat,tail,vi(或...

分享几款常用的付费日志系统,献给迷茫的你!

概述在前一篇文章中,我们分享了几款免费的日志服务器。他们各有各的特点,但是大家有不同的需求,有时免费的服务器不能满足大家的需要,下面推荐几款付费的日志服务器。1.Nagios日志服务器Nagio...

取消回复欢迎 发表评论: