余晖落尽暮晚霞,黄昏迟暮远山寻
本站
当前位置:网站首页 > 编程知识 > 正文

终于有人讲清楚了!亿级数据秒级响应的Smartbi跨库查询

xiyangw 2023-05-13 16:05 12 浏览 0 评论

我们在做BI项目的时候,通常会面临客户的系统分散在不同的数据库中,比如ERP用的Oracle,OA用的SQLServer,还有些客户数据在MongoDB中,如何跨不同的数据源对数据进行分析?

一、Smartbi如何实现跨库查询

要实现跨库关联查询分析,传统的方式有两种:一是通过单独ETL工具把数据都抽取到统一的库中;二是对现有业务代码进行重构,在业务代码中进行join关联并查询数据。这两种方式操作起来都非常麻烦!

终于有人讲清楚了!亿级数据秒级响应的Smartbi跨库查询

针对上述问题,Smartbi通过提供跨库联合数据源来支持直接的跨库关联查询。跨库联合数据源是系统内置数据源。我们可以通过将不同的关系数据源信息自动添加或是手动添加到跨库联合数据源中,来解决不同接口数据统一访问的问题。

跨库联合数据源在客户端的应用有多种方式:

  • 是以SQL语句的方式进行应用

因为跨库联合数据源是统一的SQL接口,技术人员可以直接基于它创建SQL数据集,通过书写SQL语句的方式实现跨库联合查询。

  • 是基于跨库联合数据源创建业务主题

业务主题是常见的数据资源,它通过虚拟语义层将复杂的数据关系转换为业务分析师可认知和使用的模型。基于跨库联合数据源创建业务主题,可以实现对不同数据库的表和字段重新自由组装、分级分层,构建便于业务人员拖拽使用的模型。

业务人员基于业务主题,通过勾选或是拖拽即可实现即席查询、透视分析等。如下图,演示使用业务主题创建透视分析:

二、如何解决跨库查询的性能问题

如果数据量不高,我们通过跨库联合数据源直接跨库查询一般没有问题,但当跨库查询join关联产生较大数据量时,就有可能出现性能问题。这时,我们应该如何解决呢?

1.扩充跨库计算引擎节点

Smartbi提供直接的跨库联合查询,并且内置了分布式的数据跨库查询引擎,在内存中进行关联;内置的跨库引擎还能通过线性扩充,实现并行处理。

因此,当跨库查询数据量大而出现性能问题时,我们首选增加跨库联合查询服务器内存和节点来解决。比如部署Smartbi跨库联合查询服务集群时,指定一台服务器为主节点,其余服务器为子节点,子节点可以根据性能要求横向扩展。

2.抽取数据到高速缓存库

但当数据量非常巨大,一旦达到某个级别,性能就会出现瓶颈,导致报表长时间刷不出来。而此时若通过增加跨库联合查询服务器内存和节点也无法解决,可以使用Smartbi的高速缓存库功能来解决。

高速缓存库是列式数据库管理系统,它使用分布式的内存计算技术,在进行数据查询分析的时候,允许将原始库数据抽取到高速缓存中再进行分析。

高速缓存的基本原理就是将频繁访问的数据保存在相对能够快速存取的高速缓冲区域中,以避免在复杂的数据文件中寻找。由于高速缓存库中保存了数据副本,可以方便用户程序更高效地访问数据,并且减轻了数据库的工作量,增强了系统的性能和可伸缩性。此外,高速缓存也支持集群部署,支持横向扩展,我们还可根据用户的实际情况,选择不同的高速缓存方案。

如下图,雇员表(300,024条记录)与薪资表(2,844,047条记录)进行跨库关联查询,同样的数据量情况下,使用高速缓存抽取数据后制作的仪表盘比未使用高速缓存性能提升了10倍!

未使用高速缓存加速前,仪表盘打开20秒:

使用高速缓存加速后,仪表盘打开2秒:

三、如何实现逻辑复杂的跨库计算

之前,我们的跨库引擎对外提供的是标准SQL接口,SQL的计算表达能力已经很强,但是如果跨库查询计算逻辑复杂,不能简单的用SQL去描述,我们该怎么办呢?

Smartbi通过自助ETL功能,用spark内存计算技术来增强计算能力。自助ETL模块支持以工作流可视化的形式,将多来源的异构数据通过spark内存计算技术加工处理成具备语义一致性与完整性的数据模型。

自助ETL自带丰富处理节点,拥有强大的数据处理功能,对各种结构化数据,可进行排序、去重、映射、行列合并等处理;它还支持SQL扩展、性能线性扩展;使用自助ETL处理完成的结果可直接写入数据库用于分析!

此外,Smartbi还有很多手段比如设置参数、分页、Web优化、滚动加载、应用集群、增强OLAP计算等等,用以提高性能和计算能力,满足企业不同的需求!

相关推荐

辞旧迎新,新手使用Containerd时的几点须知

相信大家在2020年岁末都被Kubernetes即将抛弃Docker的消息刷屏了。事实上作为接替Docker运行时的Containerd在早在Kubernetes1.7时就能直接与Kubelet集成使...

分布式日志系统ELK+skywalking分布式链路完整搭建流程

开头在分布式系统中,日志跟踪是一件很令程序员头疼的问题,在遇到生产问题时,如果是多节点需要打开多节点服务器去跟踪问题,如果下游也是多节点且调用多个服务,那就更麻烦,再者,如果没有分布式链路,在生产日志...

Linux用户和用户组管理

1、用户账户概述-AAA介绍AAA指的是Authentication、Authorization、Accounting,即认证、授权和审计。?认证:验证用户是否可以获得权限,是3A的第一步,即验证身份...

linux查看最后N条日志

其实很简单,只需要用到tail这个命令tail-100catalina.out输入以上命令,就能列出catalina.out的最后100行。...

解决linux系统日志时间错误的问题

今天发现一台虚拟机下的系统日志:/var/log/messages,文件时间戳不对,跟正常时间差了12个小时。按网上说的执行了servicersyslogrestart重启syslog服务,还是不...

全程软件测试(六十二):软件测试工作如何运用Linux—读书笔记

从事过软件测试的小伙们就会明白会使用Linux是多么重要的一件事,工作时需要用到,面试时会被问到,简历中需要写到。对于软件测试人员来说,不需要你多么熟练使用Linux所有命令,也不需要你对Linux...

Linux运维之为Nginx添加错误日志(error_log)配置

Nginx错误日志信息介绍配置记录Nginx的错误信息是调试Nginx服务的重要手段,属于核心功能模块(nginx_core_module)的参数,该参数名字为error_log,可以放在不同的虚机主...

Linux使用swatchdog实时监控日志文件的变化

1.前言本教程主要讲解在Linux系统中如何使用swatchdog实时监控日志文件的变化。swatchdog(SimpleWATCHDOG)是一个简单的Perl脚本,用于监视类Unix系统(比如...

syslog服务详解

背景:需求来自于一个客户想将服务器的日志转发到自己的日志服务器上,所以希望我们能提供这个转发的功能,同时还要满足syslog协议。1什么是syslog服务1.1syslog标准协议如下图这里的fa...

linux日志文件的管理、备份及日志服务器的搭建

日志文件存放目录:/var/log[root@xinglog]#cd/var/log[root@xinglog]#lsmessages:系统日志secure:登录日志———————————...

运维之日志管理简介

日志简介在运维过程中,日志是必不可少的东西,通过日志可以快速发现问题所在。日志分类日志分类,对不同的日志进行不同维度的分析。操作系统日志操作系统是基础,应用都是在其之上;操作系统日志的分析,可以反馈出...

Apache Log4j 爆核弹级漏洞,Spring Boot 默认日志框架就能完美躲过

这两天沸沸扬扬的Log4j2漏洞门事件炒得热火朝天:突发!ApacheLog4j2报核弹级漏洞。。赶紧修复!!|Java技术栈|Java|SpringBoot|Spring...

Linux服务器存在大量log日志,如何快速定位错误?

来源:blog.csdn.net/nan1996jiang/articlep/details/109550303针对大量log日志快速定位错误地方tail/head简单命令使用:附加针对大量log日志...

Linux中查看日志文件的正确姿势,求你别tail走天下了!

作为一个后端开发工程师,在Linux中查看查看文件内容是基本操作了。尤其是通常要分析日志文件排查问题,那么我们应该如何正确打开日志文件呢?对于我这种小菜鸡来说,第一反应就是cat,tail,vi(或...

分享几款常用的付费日志系统,献给迷茫的你!

概述在前一篇文章中,我们分享了几款免费的日志服务器。他们各有各的特点,但是大家有不同的需求,有时免费的服务器不能满足大家的需要,下面推荐几款付费的日志服务器。1.Nagios日志服务器Nagio...

取消回复欢迎 发表评论: