余晖落尽暮晚霞,黄昏迟暮远山寻
本站
当前位置:网站首页 > 编程知识 > 正文

教程:Apache Spark SQL入门及实践指南!(sparksql怎么用)

xiyangw 2022-11-25 11:58 37 浏览 0 评论

Apache SparkSQL是一个重要的Spark模块,我们可以使用Python、Java和Scala中的DataFrame和DataSet简化结构化数据处理流程,该过程从企业收集数据并形成分布式数据集合。使用Spark SQL,我们可以从Spark程序内部通过标准数据库连接器(JDBC/ODBC)连接到Spark SQL外部工具查询数据。

本教程介绍了Spark SQL体系结构组件,比如DataSets和DataFrames;在Apache Spark中使用Spark SQL以及其优劣等内容。

Apache Spark SQL教程

Spark SQL简介

Apache SparkSQL是Spark中结构化数据处理模块。使用Spark SQL提供的接口,我们可以获得有关数据结构和执行计算等信息。有了这些信息,我们就可以在Apache Spark中实现优化,通过DataFrame和Dataset API等方式与Spark SQL交互。无论使用哪种API或语言表达计算,在计算结果时都使用相同的执行引擎。因此,用户可以容易地在不同API间切换。

在Apache Spark SQL中,我们可以通过四种方式使用结构化和半结构化数据:

  • 为了简化结构化数据使用,它提供了Python,Java和Scala中的DataFrame抽象,提供了很好的优化技术。
  • 可读取和写入多种格式数据,比如JSON、Hive Tables和Parquet。
  • 使用SQL,我们可以从Spark程序内外部工具中查询数据,外部工具通过标准数据库连接器(JDBC/ODBC)连接到Spark SQL。
  • 使用Spark SQL的最佳方法是在Spark应用程序中,这使我们能够加载数据并使用SQL进行查询。同时,我们还可以将它与Python、Java或Scala中的“常规”程序代码结合使用。

SQL从其他编程语言运行的结果将是数据集或数据框架,与SQL接口的交互使用命令行或JDBC/ODBC进行。

Spark SQL DataFrames

RDD存在一些局限性,使用结构化数据没有内置的优化引擎,开发人员必须优化每个RDD。此外,没有规定处理结构化数据。Spark SQL中的DataFrame克服了RDD限制。Spark DataFrame是Spark 1.3版本,它是按命名列排序的分布式数据集。从概念来看,它等同于关系数据库中的表或R/Python中的数据框架,我们可以使用以下方法创建DataFrame:

  • 结构化数据文件
  • Hive中的表格
  • 外部数据库
  • 使用现有的RDD

Spark SQL数据集

Spark Dataset是Spark 1.6版本中添加的接口,它是一个分布式数据集合。我们可以用JVM对象创建数据集,之后使用功能转换(映射,过滤器等)对其进行操作,使用Scla和Java访问数据集API。Python不支持Dataset API,但由于Python的动态特性,可以使用Dataset API的许多好处,R也如此。

Spark Catalyst Optimizer

Spark SQL使用的优化器是Catalyst,它优化了用Spark SQL和DataFrame DSL编写的所有查询。优化器帮助我们以比RDD对应方式更快的速度运行查询,这提高了系统性能。

Spark Catalyst是一个基于规则的系统构建库,每条规则都侧重于具体优化。例如,ConstantFolding的重点是从查询中消除常量表达式。

Apache Spark SQL的使用

  • 执行SQL查询;
  • 我们可以使用SparkSQL从existingHive安装中读取数据;
  • 当我们在另一种编程语言中运行SQL时,我们将得到结果作为数据集/数据框架。

由Spark SQL定义的函数

  • 内置功能:提供内置函数处理列值,可以使用以下命令访问内置函数:
Import org.apache.spark.sql.functions
  • 用户定义函数(UDF):UDF允许根据Scala规则创建用户定义函数。
  • 聚合函数:它们对一组行进行操作,并计算每组的返回值。
  • 窗口化聚合(Windows):对一组行进行操作,并为组中的每一行计算返回值。

Spark SQL的优点

在本节中,我们将讨论Apache Spark SQL的各种优点:

1、集成

Apache Spark SQL将SQL查询与Spark程序集成。在Spark SQL的帮助下,我们可以将结构化数据作为分布式数据集(RDD)查询,可以使用Spark SQL紧密集成属性与复杂的分析算法一起运行SQL查询。

2、统一数据访问

使用Spark SQL,我们可以加载和查询不同来源数据。Schema-RDD允许单个接口高效处理结构化数据。例如,Apache Hive tables, parquet files, and JSON files.

3、高兼容性

在Apache Spark SQL中,我们可以在现有仓库上运行未修改的Hive查询,允许使用Hive前端和MetaStore完全兼容现有Hive数据,查询和UDF。

4、标准连接

可通过JDBC或ODBC连接,包括具有行业标准JDBC和ODBC连接的服务器模式。

5、可扩展性

为了支持查询容错和大型作业,它利用了RDD模型,使用相同的引擎进行交互式查询。

6、性能优化

Spark SQL中的查询优化引擎在整个计划中选择最佳的执行计划。

7、用于批处理Hive表

使用Spark SQL快速批处理Hive表。

Spark SQL的缺点

除了这些功能外,Spark SQL还有一些缺点:

  • 不支持Union类型 ;
  • 无法创建或读取包含union字段的表;
  • 插入超大Varchar类型不提示错误,即使插入值超出大小限制,也不会发生错误。如果从Hive读取,则相同的数据将截断,但如果从Spark读取则不会截断。SparkSQL会将varchar视为字符串,这意味着没有大小限制;
  • 不支持Transactional 表;
  • Spark SQL不支持Hive事务;
  • 不支持char类型:无法阅读或创建包含此类字段的表格;
  • Avro表不支持时间戳

结论

总结来说,Spark SQL是Apache Spark的一个重要模块,用于分析结构化数据,提供可扩展性并确保系统的高兼容性。它通过JDBC或ODBC具有标准连接,提供了表达结构化数据最自然的方式。

相关推荐

辞旧迎新,新手使用Containerd时的几点须知

相信大家在2020年岁末都被Kubernetes即将抛弃Docker的消息刷屏了。事实上作为接替Docker运行时的Containerd在早在Kubernetes1.7时就能直接与Kubelet集成使...

分布式日志系统ELK+skywalking分布式链路完整搭建流程

开头在分布式系统中,日志跟踪是一件很令程序员头疼的问题,在遇到生产问题时,如果是多节点需要打开多节点服务器去跟踪问题,如果下游也是多节点且调用多个服务,那就更麻烦,再者,如果没有分布式链路,在生产日志...

Linux用户和用户组管理

1、用户账户概述-AAA介绍AAA指的是Authentication、Authorization、Accounting,即认证、授权和审计。?认证:验证用户是否可以获得权限,是3A的第一步,即验证身份...

linux查看最后N条日志

其实很简单,只需要用到tail这个命令tail-100catalina.out输入以上命令,就能列出catalina.out的最后100行。...

解决linux系统日志时间错误的问题

今天发现一台虚拟机下的系统日志:/var/log/messages,文件时间戳不对,跟正常时间差了12个小时。按网上说的执行了servicersyslogrestart重启syslog服务,还是不...

全程软件测试(六十二):软件测试工作如何运用Linux—读书笔记

从事过软件测试的小伙们就会明白会使用Linux是多么重要的一件事,工作时需要用到,面试时会被问到,简历中需要写到。对于软件测试人员来说,不需要你多么熟练使用Linux所有命令,也不需要你对Linux...

Linux运维之为Nginx添加错误日志(error_log)配置

Nginx错误日志信息介绍配置记录Nginx的错误信息是调试Nginx服务的重要手段,属于核心功能模块(nginx_core_module)的参数,该参数名字为error_log,可以放在不同的虚机主...

Linux使用swatchdog实时监控日志文件的变化

1.前言本教程主要讲解在Linux系统中如何使用swatchdog实时监控日志文件的变化。swatchdog(SimpleWATCHDOG)是一个简单的Perl脚本,用于监视类Unix系统(比如...

syslog服务详解

背景:需求来自于一个客户想将服务器的日志转发到自己的日志服务器上,所以希望我们能提供这个转发的功能,同时还要满足syslog协议。1什么是syslog服务1.1syslog标准协议如下图这里的fa...

linux日志文件的管理、备份及日志服务器的搭建

日志文件存放目录:/var/log[root@xinglog]#cd/var/log[root@xinglog]#lsmessages:系统日志secure:登录日志———————————...

运维之日志管理简介

日志简介在运维过程中,日志是必不可少的东西,通过日志可以快速发现问题所在。日志分类日志分类,对不同的日志进行不同维度的分析。操作系统日志操作系统是基础,应用都是在其之上;操作系统日志的分析,可以反馈出...

Apache Log4j 爆核弹级漏洞,Spring Boot 默认日志框架就能完美躲过

这两天沸沸扬扬的Log4j2漏洞门事件炒得热火朝天:突发!ApacheLog4j2报核弹级漏洞。。赶紧修复!!|Java技术栈|Java|SpringBoot|Spring...

Linux服务器存在大量log日志,如何快速定位错误?

来源:blog.csdn.net/nan1996jiang/articlep/details/109550303针对大量log日志快速定位错误地方tail/head简单命令使用:附加针对大量log日志...

Linux中查看日志文件的正确姿势,求你别tail走天下了!

作为一个后端开发工程师,在Linux中查看查看文件内容是基本操作了。尤其是通常要分析日志文件排查问题,那么我们应该如何正确打开日志文件呢?对于我这种小菜鸡来说,第一反应就是cat,tail,vi(或...

分享几款常用的付费日志系统,献给迷茫的你!

概述在前一篇文章中,我们分享了几款免费的日志服务器。他们各有各的特点,但是大家有不同的需求,有时免费的服务器不能满足大家的需要,下面推荐几款付费的日志服务器。1.Nagios日志服务器Nagio...

取消回复欢迎 发表评论: