4月26日,在华为开发者大会(Cloud)上,华为云数据使能DAYU主力产品GaussDB(DWS)首席架构师解读了GaussDB(DWS)的一站式数据分析能力。
随着大数据观念逐步深入,数据分析带来的价值愈发被大家重视起来。从PC时代,到互联网时代、移动互联网时代,数据应用不再是简单的分析和挖掘,而是更加智能化。
典型企业分析场景主要分为实时分析处理,批量分析处理以及交互式查询处理。当前常见的解决方案用不同技术解决不同问题:使用Hana,Oracle Exadata处理实时分析场景;使用Teradata,Greenplum处理批量分析场景;使用Oracle和SQL Server等处理交互式查询场景。从单一场景来看都是不错的选择,但是站在整体数据域视角去看,这种搭积木式的方案带来诸多问题 ,例如组件多,开发方式不统一,数据格式不统一,反复转换消耗算力和存储空间;组件间的数据流转开发复杂,流转效率低;跨集群,跨组件数据一致性差等。
华为云GaussDB(DWS)从两个维度构筑能力,为企业用户提供一站式分析能力:
在全并行分布式架构上,无缝融合时序引擎、OLAP引擎、CEP引擎,同时支撑实时分析、批量分析和交互式查询等不同业务负载,达到开发统一、部署统一、维护统一、数据格式统一,真正做到一个产品包办的一站式分析;
异构平台数据融合、协同分析,构筑全域数据一体化。当前企业IT系统不会是白纸一张,在不同阶段曾经采用不同技术建设的多套系统承载着不同的业务,这些系统还未完成历史使命,将延续使用相当长一段时间。华为云GaussDB(DWS)支持多样性的数据融合分析能力,无缝融合并协同分析企业现有平台数据,让老IT系统产生的数据焕发新价值。
一、T+0实时分析
业务场景中实时数据源种类繁多,针对不同数据源采用不同实时处理技术。时序引擎支持时序数据分析,内置100多种时序分析算法,将时序数据接入后实时合并;流引擎接入基于Kafka/Flink等流组件产生的流式数据,支持对流数据自定义持续计算。
二、全并行批量分析
基于Share-nothing分布式架构,华为云GaussDB(DWS)天然具备大规模的分布式并行处理能力。多层级并行技术将系统性能推至极致,包括节点间并行、节点内SMP并行,CPU指令级并行以及动态编译技术。同时,通过自研TCP多流、多线程包合并、通信代理等技术,将scale-out能力推至极致,华为云GaussDB(DWS)也是目前唯一通过信通院2048节点大集群权威认证的分布式数据库产品。
三、多场景交互式查询
对短查询做了全流程梳理,从接入、SQL解析、计划发送、执行和数据扫描进行了一系列优化;由于Ad-hoc查询的负载具有不可预见性,经常可能会出现单一查询拖慢甚至拖垮整个集群的情况,华为云GaussDB(DWS)内置动态智能负载管理组件,实时监控运行状态和资源消耗,对异常作业自动预警并智能干预,例如内存占用过高,运行时间过长,大量数据广播等异常情况,系统会自动查杀等。
以银行业务为例,“手机银行用户实时数据查询”与“网银系统交易流水批量作业”是最常见的业务场景,采用2套技术方案或2个平台分别处理,则会出现资源重复投入。使用华为云GaussDB(DWS)实现2个业务场景需求,数据无需反复转换和流转,提升了业务处理效率,节省运维成本。2小时可完成7万个核心业务的银行日增量数据归档和数据加工,同时支持手机银行终端7x24小时实时查询;当上千万个人用户与几十万企业用户同时使用系统,并发进行日间批量作业10万个的批量高峰期,实时查询可在3秒内响应,真正做到跑批和实时作业互不影响。
华为云GaussDB(DWS) 面向未来,构筑新一代、全场景、云数据仓库,一站式数据分析,释放非凡数据价值,做企业数字化转型的最佳伙伴。