数据中台建设投标方案

 

 

 

 

招标编号:****

投标单位名称:****

授权代表:****

投标日期:****

 


 


1. 高效数据管理平台设计提案

1.1. 全面建设项目规划

根据对客户大数据应用平台服务需求的深入剖析,并充分考虑建设目标与设计原则,我们提议采纳星环科技的TranswarpDataHub (TDH) 大数据核心平台架构设计。该方案倾向于基于TranswarpOperatingSystem (TOS) 云计算平台进行部署构建,以实现高效且稳定的服务环境。

我们致力于构建一套完善的服务体系,包括大数据集成平台、大数据计算设施、大数据开发模块和大数据运维支持,以充分满足客户对大数据应用平台的需求。

1.1.1. 大数据平台-TDH

星环大数据解决方案TranswarpData Hub (简称 TDH),依托Spark开源技术,对其查询引擎、计算框架、存储系统及资源调度等领域进行了深度优化,从而显著提升了性能,超越同类产品。其创新的分布式计算引擎Inceptor,有效解决了Spark的稳定性挑战,并已在诸多实际项目中经受住了考验。Inceptor极大地增强了Spark的计算性能,性能提升幅度达到开源版本的2-10倍。TDH Inceptor确保了Spark在企业生产环境中的稳定运行,能够高效地处理TB级规模的复杂数据,支持广泛的统计分析任务。  TDH采用Hadoop架构,设计为一个强大的数据处理平台,兼容结构化、非结构化、半结构化等多种数据类型,可轻松处理来自配置、日志、网页、音视频、社交网络等多源异构数据的加载和存储。它支持多种数据处理模式,包括数据查询、全文检索、批处理分析、交互式分析、图分析、数据挖掘及机器学习等。  实时流处理集群进一步强化了平台的服务能力,满足实时数据分析的需求。此外,TDH提供了全面的多租户功能,对计算、存储和数据访问资源实施统一管理和控制,包括高效调度计算资源、设置存储配额以及严谨的数据访问权限管理。所有运维管理工作,如安装、配置、监控和告警,都由统一的TranswarpManager进行高效管理。

星环大数据平台TDH应用范围覆盖各种规模和不同数据量的企业,通过内存计算、高效索引、执行优化和高度容错的技术,使得一个平台能够处理10GB到100PB的数据,并且在每个数量级上,都能比现有技术提供更快的性能;企业客户不再需要混合架构,TDH可以伴随企业客户的数据增长,动态不停机扩容,避免MPP或混合架构数据迁移的棘手问题。

1.1.2. 云操作系统-TOS

作为专为大数据应用设计的云计算解决方案,星环云操作系统(Transwarp Operating System,简称TOS)构建在Docker和Kubernetes的核心架构之上。TOS提供了一键式部署Transwarp Data Hub (TDH) 的便捷功能,同时具备智能的抢占式资源调度和精细化的资源管理,助力大数据应用无缝融入云环境,实现高效运行。

未来企业对于构建统一的企业大数据平台来驱动各种业务具有强烈需求,统一的企业大数据平台需要提供以下功能:

·资源弹性共享一提高资源利用率

高效部署特性:本方案兼容灵活配置,可适应各类大数据应用程序及常规应用的顺畅部署

资源管理:实现自动化伸缩与故障自愈功能

3) 服务发现:具备集中式的仓库

·隔离性一保障服务质量和安全性

1)数据隔离:包括数据源、访问模式等

隔离策略详解:涵盖CPU资源隔绝、内存划分独立、网络配置隔离以及磁盘I/O操作限制

TOS全面契合企业大数据平台的需求,它具备一键式部署、扩展与收缩TDH的功能。同时,TOS支持服务间的资源共享,有效提升集群资源利用率。其创新的抢占式资源调度模型在确保实时业务稳定运行的同时,优化了集群在空闲时段的资源使用,使得批量作业与实时业务得以在无冲突的时间段内共享计算能力。

TDH在TOS环境下的运行特别引入了微服务架构,这一创新显著减少了用户部署环境对TDH稳定性的潜在影响,提升了部署的可靠性,并使得用户能够在无需停机的情况下无缝享受新版本升级和问题修复的服务优势。

TOS由以下几个部分组成:

TOS的组成部分:

第一章:Docker/容器技术基础

第一章:资源调度器

第二部分:内置系统服务

第三环节:中央服务存储库(Docker镜像)

TRANSWARPTranswarp Operating System

Containers

SchedulerSystemService

ContainerPlugins

CPU/MEM

Disk

Network

coordination

orchestration

auto-scaling

discovery

 

priority-basedscheduler

storagemanager

VLANmanager

etcd

loadbalancer

replicator

nameservice

容器层

容器层的核心构成是一系列docker容器。作为开源的创新工具,Docker专为各类应用程序设计,能够生成轻量、可移植且自给自足的容器。开发者在开发环境中成功构建并验证的容器,可便捷地在生产环境中进行大规模部署。

Docker容器的生成基于Docker镜像,其与镜像之间的关联可类比于面向对象编程中的实例与类结构。每个容器被赋予特定的计算和存储资源,旨在独立运行各自的程序。通过将应用服务部署在Docker容器内,实现了应用环境与基础环境的解耦,确保各容器间的隔离性,互不干扰。

调度模块

基于Kurbernetes开发,包含多种调度模块,以及相应的调度策略。支持对CPU、内存的调度,内嵌了FIFO调度、公平调度等常规的调度策略。额外的,基于Docker容器能够快速启动的特点,TOS还包含了抢占式的优先级调度策略,通过设计不同的优先级,优先级高的容器能够抢占优先级低容器的资源启动。

系统服务层

系统服务层承载了诸如etcd、name service等确保容器稳定运行的必要系统服务,其主要功能在于为平台的容器化架构提供支持。

集中式服务仓库

TOS提供了一个类比于Maven仓库的集中式应用服务存储。当用户希望启动存储在其中的应用时,只需下载对应Docker镜像并启动即可实现操作的便捷性。

仓库已预先部署了一系列常用的应用服务,包括Docker化的TranswarpData Hub各组件以及Tomcat、MySQL等标准服务。对于用户的个性化需求,可以通过TOS接口在测试环境中定制并将其转化为Docker镜像,随后将该镜像上传至TOSmarket。这样,用户便能在生产环境中便捷地下载和利用这些自定义服务。

依托于分布式容器集群管理系统(TOS),我们构建了一种高效能的服务器虚拟化资源池,旨在为大数据平台的各种应用、分布式计算与存储服务组件提供全面的多租户容器资源管理(包括配置与调度),支持应用的打包部署,并实施严格的SLA管控。此外,还包括作业调度管理和统一运维监控,确保系统的稳定运行与高效运维。

该系统具备以下优势:

·便捷部署

基于TOS,用户可以通过Web UI、RESTAPI或者命令行一键瞬间安装和部署TDH集群,能自动根据服务的依赖性安装所需的其他服务组件。在虚拟技术之前,部署硬件资源满足新的应用需求需要几天时间,通过虚拟化技术把这个时间降到了分钟级别,而目前基于Docker的TOS云平台把时间降到了秒级别。Docker作为装载进程的容器,不必重新启动操作系统,几秒内能关闭,可以在数据中心创建或销毁,没有额外消耗。典型的数据中心利用率是30%,通过更积极的资源分配,以低成本方式对新的实例实现更合理的资源分配,从而提高数据中心的利用效率。

·完整的资源隔离

通过优化 Kubernetes 资源管理系统,TOS 实现了对 Docker 容器的高级别资源隔离,涉及CPU、内存、存储和网络。在 TOS 中,Docker 容器的安全边界主要依托于Linux内核提供的六大隔离机制:一是确保每个容器拥有独立的主机名与域名标识;二是利用信号量、消息队列和共享内存实现进程间的通信限制;三是通过进程编号区分,防止混淆;四是网络层面,隔离网络设备、网络栈及端口权限;五是文件系统挂载点的隔离,保障数据隔离,防止跨容器操作;最后,用户和用户组权限的严格划分,进一步维护了容器之间的界限。这样的设计确保了各个容器在独立且受控的环境中运行,如挂载点隔离防止进程间意外的数据交互。

TOS平台在资源管理特性上展现出了显著的优势。相对于传统的Apache Yarn和开源Kubernetes,它在资源粒度控制上更为精细,不仅限于CPU和内存,还扩展至磁盘和网络层面的精细化管理。在隔离性方面,得益于容器技术的内置特性,TOS平台提供了更强的隔离保障。尤其在通用性和灵活性上,TOS不依赖于Hadoop组件,使得它能够支持广泛的上层应用进行云端开发、测试、升级和统一的调度管理,从而实现了更高的适应性和兼容性。

资源粒度

隔离程度

依赖性

通用性

YARNCPU/MEM

进程级别、不依赖某个精确

HDFS

支持少量计算引擎

KuberneCPU/MEMtes

Container

不依赖Hadoop

支持通用Linux负载

CPU/MEM,TOSDISK,NETWORK

Container+Quota+VLAN

不依赖Hadoop

支持大数据及通用应用

·灵活资源调度

TOS具备智能的可扩展性和收缩能力,能自动适应TDH组件的需求变化,实现集群内资源的高效共享。其特色在于采用抢占式资源调度机制,确保实时业务的顺畅运行同时,充分挖掘空闲时段的资源潜力,使得批量作业与实时业务得以在互不影响的时段内平滑地分享计算资源。动态集群规模调整功能允许资源按需动态分配和调度,而且这一过程对业务和服务的中断影响降至最低,仅需热插拔操作,无需中断服务进程。

·自动修复

Replicator模块在TOS中承担监控集群规模的任务,一旦服务出现故障,它能自动触发服务实例的备份策略以实现自我修复。例如,当一个HyperbaseRegionServer因硬件故障导致服务暂停,TOS平台能即时察觉并根据管理资源,在其内部启动一个新的Docker容器来替代故障容器,从而动态维持服务集群的持续稳定运行。

·应用隔离

TDH及应用服务在TOS平台上采用微服务架构设计,有效减少了用户部署环境对TDH稳定性和服务可用性的影响。这种架构使得部署过程更为便捷,支持用户在不影响业务连续性和服务的前提下,实现TDH及应用服务版本的无缝滚动升级。

1.1.3. 我们的大数据平台独特优势解析

1.1.3.1. 全面的SQL功能

星环大数据平台全面兼容SQL99规范与SQL2003核心扩展,能够顺利执行TPC-DS基准测试中的所有99个标准测试项目。

唯一支持存储过程的SQL onHadoop引擎;兼容98%以上的Oracle PL/SQL 与80%以上的DB2SQLPL语法支持存储过程、函数、控制流、游标、异常处理等各类语法。

作为业界领先的ACID兼容分布式事务处理的SQL引擎,它专为数据仓库和数据集市环境设计,适用于增强或替换诸如Oracle、DB2等数据分析型数据仓库的功能。

TDH集成ANSI SQL 2003语法及PL/SQL过程扩展,具备对HiveQL、SQL 2003和PL/SQL的智能识别能力。在确保与Hive兼容的前提下,它强化了SQL支持,以标准化SQL形式实现数据访问。TDH全面的SQL支持助力用户轻松迁移现有的数据分析应用程序至Transwarp大数据平台,同时能够高效处理大规模数据。

为了降低开发流应用程序的难度,TDH还支持StreamSQL标准,其中包含流扩展后的SQL99。因此,开发者可以在TDH上直接使用SQL而不是通过各种API来编写流计算程序,也不需要考虑任何打包或部署工作。为了更好的提供全文搜索服务,TDH中的Search也支持SQL的检索扩展语法(兼容Oracle标准)。由于支持标准的JDBC4.0和ODBC3.5,TDH可以兼容主流的数据库软件和中间件。

 

TDH

Apache Hive

Apache Spark

SQL99

SQL 99&2003

部分

Oracle PL/SQL

部分

DB2 SQL PL

Database方言

DB-Link扩展

StreamSQL

Search扩展

1.1.3.2. 全面的业务流程保障

在大数据的数据处理与清洗环节,ACID原则发挥着核心作用。缺乏ACID特性会导致数据插入和修改过程中潜藏多类问题,终端用户需自行追踪事务操作的失效原因,并寻找解决方案,这无疑增加了用户应用的复杂性,甚至可能使其无法执行。更为严重的是,当两个应用程序并发写入同一数据区域时,没有ACID可能导致严重的数据冲突错误。

作为Hadoop商业化的首款解决方案,TDH率先实现了全面的ACID特性保障。

事务隔离在Transwarp Inceptor中得以实现,借助于两阶段锁机制和多版本并发控制(MVCC)协议,确保了数据的一致性。

 

TranswarpInceptor

Hive

Impala

Oracle

CRUD支持

支持

支持

不支持

支持

事务类型

事务+自治事务

自动提交事务

不支持

事务+自治事务

隔离级别

可串行

不支持

不支持

只读+可串行+读取提交

事务错误处理

事务+PL/SQL+SQLPL

不支持

不支持

事务+PL/SQL

数据一致性

支持

不支持

不支持

支持

1.1.3.3. 高效的执行性能

Transwarp Inceptor凭借其专有的高效列式内存存储格式与内存优化的Apache Spark计算引擎,显著提升了性能,相较于普遍采用的Map/Reduce架构,有效减少了频繁的磁盘I/O操作。Spark引擎的优势在于其轻量级调度框架和多线程计算模型,与Map/Reduce的进程模型相比,极大地降低了调度和启动成本,从而实现更快的执行速度和显著降低的平均修复时间(MTTR)。在实时在线应用领域,Transwarp Hyperbase通过构建全局索引、辅助索引和全文索引,扩展了SQL功能,满足在线存储和OLAP业务分析对低延迟的需求。整体来看,TDH在执行引擎和数据存储层的优化使其在性能上全面超越开源Apache Hadoop 2.0,SQL支持的完整性和性能更是远超Cloudera Impala,比主流MPP数据库快1.5至10倍。

作为一款卓越的大数据分析工具,Transwarp Inceptor以其出色的执行效能和动态扩展潜力著称。星环科技对Inceptor的分布式计算框架进行了深度优化,确保其具备了高度灵活性和性能提升。针对数据重分布和广播操作,Inceptor实施了高效调试与优化策略,致力于优化整体运行效率。Inceptor Holodesk凭借SSD或内存支持的列式存储架构,实现了极高的数据读取速率。同时,Inceptor融合了成本导向和规则驱动的优化策略,以智能地选择执行任务的最佳方案。这些精心设计的特性共同提升了Inceptor在批量处理中的效率和可扩展性,尤其在TPC-DS不同数据规模的测试中,Inceptor的表现始终亮眼。

Inceptor可以很好地适配各种交互式数据分析和OLAP场景。Holodesk提供了索引支持,并且可以有效的利用SSD来加速扫描,因此对交互式分析场景的业务可实现多倍的提速。对于模式较为固定的数据报表业务,用户可以采用OLAPCube技术使分析性能提高10-100倍。我们以1TB的数据集为对象进行测试,发现在OLAPCube的加速下,TPC-H在Inceptor中的运行速度比SparkSQL和Greenplum快近100倍。

1.1.3.4. 高效的数据处理与深度洞察

大数据在数据分析师的交互式探索中发挥关键作用,通过深入挖掘,揭示模式与趋势,从而推动更深层次的分析与决策过程,其重要性日益凸显。

TDH通过分布式的内存列式存储和优化的高速执行引擎来支持交互式SQL查询,使得实时和交互式分析变成可能。TDH同时支持R统计引擎,最新版本的TDH除了支持通过R访问HDFS或者Hyperbase中的数据外,还支持访问存储在Inceptor分布式内存中的数据。Inceptor同时内置了常用机器学习算法的并行化实现,可以与R语言中的数千个算法混合使用。新版本同时支持R命令行以及图形化的RStudio执行R语言程序来访问TDH中的数据,从而使得TDH成为在大数据的数据挖掘和可视化应用领域的利器。TDH包含了经过高度优化的专有图算法,可高速分析关联关系网络等图数据。

Transwarp Discover为终端用户提供了一套全面的R语言接口,支持高效的数据挖掘功能。该平台集成了超过60种分布式机器学习算法及适用于各行业的模型,例如金融领域的交易欺诈检测模型和文本挖掘模型,显著加速了机器学习技术在各行业的实际应用与商业转化。

星环借助TranswarpSophon支持数据工程师开展数据挖掘应用的开发。Sophon提供了一套直观的可视化工具Midas,用户仅需通过简单的拖放操作,将数据源和运算符组合,即可构建模型。随后,这些模型可在TDH集群上进行训练或预测分析。相较于传统的单机运算,分布式执行器显著提升了模型运行效率,极大地加速了数据科学家的模型训练过程,最高可提升数倍乃至数十倍的效率。此外,Sophon还集成了深度学习框架Tensorflow,用户能够便捷地通过拖拽方式构建各种神经网络模型,实现灵活参数调整和训练,从而无缝融合大数据与人工智能,驱动业务创新。

1.1.3.5. 容器技术和Kubernetes资源管理

TDH的所有组件均经过针对Docker的优化,其计算引擎能够借助Kubernetes进行资源管控,从而实现TDH在公有云或私有云环境下的经济高效部署。星环充分挖掘了Docker和Kubernetes的资源隔绝优势以及QoS资源调度功能,提供了灵活的资源共享,确保数据、资源与应用间的独立性,进而提升了多租户管理效能,适应各种业务场景的需求。

容器技术对TDH的部署与维护产生了显著的优化效果。它具备动态扩展和缩减的能力,支持灰度更新,使得在无停服状态下进行系统升级成为可能。

1.1.3.6. 整合生态系统的强大策略

TDH致力于与数据分析生态系统进行深度融合,以提升用户体验。这一整合涵盖了从数据采集、深度分析直至可视化全过程。系统无缝对接诸如Oracle、DB2和MySQL等传统关系型数据库,使得数据源能直接参与到集群中的计算分析之中。通过与R语言的紧密集成,TDH能够利用R的庞大统计算法库,并借力R的图形工具,制作出专业水准的统计报告。数据可视化不仅是呈现分析结果的关键手段,而且有助于数据分析师进行深入探索,从而发现并解决新的业务挑战。此外,TDH支持多种可视化工具,例如Tableau和SAP Business ... (后续内容待提供)

借助Oracle OBIEE等先进工具,推动商业决策的智能化进程,得益于其对大数据分析的深度整合与支持。

通过优化理解和接纳,最大限度地发掘大数据的潜藏价值。尽管面临某些挑战,

我们同样兼容Apache Hadoop,然而,唯有高效率的TDH技术才能实现真正的交互性提升。

式地探索大数据成为现实。

1.1.3.7. 全面的的企业架构策略

TDH通过提供数据存储、分布式计算、数据分析挖掘以及数据可视化的整套支持,解决了企业在GB到PB级数据分析领域碰到的各种问题。作为企业级解决方案,可管理性是TDH的显著优势,用户友好的管理界面提供了系统安装、系统及集群配置、监控及预警等多方面的一站式支持。TDH架构具有高可用性和快速故障恢复能力,HDFS2.5做为其底层存储系统的支撑技术(Hyperbase亦基于此)保证了数据的持久化和冗余复制,并具有数据自动检测和修复的容错功能;基于HDFS的所有服务为HDFS2.5的HA功能而优化,确保整个大数据处理系统的高可用性。在安全领域,与Kerberos/LDAP进行整合,支持细粒度访问控制、应用程序安全及数据加密及解密等等。

1.1.4. 大数据平台性能优化

1.1.4.1. TDH计算框架优化

星环支持多种主流的分布式计算框架,包括MapReduce和Spark,并且在产品设计之初就将Spark作为整个产品的缺省计算框架,多年来在计算框架方面做了大量的优化工作,提高了其性能与稳定性。

1.1.4.1.1. MapReduce

分布式计算框架MapReduce的特点在于,它简化了对大规模并行应用的开发,这些应用可在由数千台商业级设备构建的集群环境中稳定、容错地执行,高效处理达到TB级别的海量数据集。

MapReduce在大数据处理中展现出卓越能力,其核心策略是'分工协作',计算流程划分为Map(分解)和Reduce(整合)两个关键步骤。首先,它将繁复的任务拆解为众多易于管理的小任务,这涉及三个主要维度:一,每个小任务的数据或计算规模相较于原任务大幅缩减;二,遵循就近原则,任务被分配至存储所需数据的节点进行运算;三,这些小任务具备并行执行的特性,彼此间不存在依赖关系。Reducer的主要职责是对Map阶段的结果进行汇总整理。

1.1.4.1.2.Spark

由UC Berkeley AMP实验室开源的Spark框架,作为Hadoop MapReduce的扩展型通用并行处理平台,继承了Hadoop MapReduce的诸多优势。然而,Spark的独特之处在于其Job的中间结果能够驻留在内存中,这使得它在数据挖掘和机器学习等需要频繁迭代的场景中展现出更强的性能,避免了频繁地与Hadoop分布式文件系统(HDFS)交互。

Spark:一种与Hadoop并列的开源分布式计算框架,尽管有相似性,但独具特色的优势使其在特定任务中展现出卓越性能。Spark的核心特性在于内存计算的集成,它不仅支持交互式查询,还显著提升了迭代作业的效率。

Spark框架的构建根植于Scala语言之中,它充分利用Scala作为其核心的应用程序开发环境。相较于Hadoop,Spark与Scala的融合更为深入,使得开发者能够便捷地以处理本地集合对象的方式操作分布式数据集,实现了高效的数据处理能力。

1.1.4.1.3.计算引擎优化

星环科技基于开源Spark技术,改进的分布式计算引擎Inceptor,解决了开源Spark的稳定性问题,并且已经在众多成功案例中经历了的考验。同时Ipcetor大幅提高Spark计算性能,是开源的2-10倍。TDH Inceptor极大提高了Spark功能和性能的稳定性,可以7*24小时在企业的生产环境运行,并能在TB级规模数据上高效进行各种稳定的统计分析。

Inceptor深度依托Apache Spark,精心研发了专属的分布式计算框架,显著提升了计算效率,并成功优化了Spark在稳定性的诸多挑战,确保了计算引擎的24/7不间断运行。尤为值得一提的是,Inceptor独立构建了分布式数据管理架构,将计算数据从JVM内存环境中剥离,从而有效缓解了JVM垃圾回收(GC)对系统性能和稳定性的影响。

Inceptor在SQL执行计划优化上采用双重策略,集成了代价导向的优化器与规则驱动的优化器,配备超过100种精细规则。这确保了SQL在无需人工干预的情况下,能充分发挥其卓越性能。针对数据处理中的常见挑战,如数据倾斜,Inceptor的执行引擎具备智能识别和自动优化功能,能有效应对大部分数据倾斜问题,从而消除对系统稳定性的潜在威胁。

Inceptor的执行机制针对多元数据环境设计,具备两种关键模式:高效低延时与高吞吐处理。在数据规模相对较小的场景下,低延时模式着重优化,通过生成执行效率高的物理执行计划,有效减少(如I/O和网络操作)潜在的延迟,确保SQL执行的响应时间极短,甚至能逼近传统关系型数据库在类似条件下的性能表现。而对于大数据运算密集的任务,高吞吐模式则侧重于分布式执行策略,旨在提升对PB级海量数据的复杂统计分析能力,从而全面覆盖从GB到PB级别的数据业务需求。

1.1.4.2. TDH查询引擎优化

内置的Transwarp Inceptor引擎配备了一系列高效的查询优化策略,其中包括:基于成本效益分析的优化器(CBO)、基于规则导向的优化器(RBO)以及依赖于物化视图的优化器(MBO)。

1.1.4.2.1.基于代价的优化器

CBO,即Cost Based Optimization(基于成本的优化策略),作为SQL执行计划的关键优化技术,Inceptor对其在大数据平台上的原有功能进行了强化与扩充,从而显著提升了SQL的兼容性与执行效率。

性能提升方面,在测试TPC-DS标准测试集时,开源Hive在开启CBO优化以后,平均有2.5倍的性能提升。Inceptor基于原有的功能进行了扩展和增强,在开启内置CBO后,约10%的测试场景性能提升倍,接近20%的场景性能提升40%,约有80%的执行计划等于或接近最优计划。实际海量数仓业务中,预计CBO能够提供较好的性能优化提升。

1.1.4.2.2.基于规则的优化器

RBO,即RuleBased Optimization(基于规则的优化策略),它通过实施一组静态优化规则,构建出高效的逻辑执行计划。该方法依据一套简明的启发式规则和评估标准,对语句的执行流程和数据访问方式做出决策,其中排序靠前的方案通常被赋予更高的执行效率.

1.1.4.2.3.基于物化视图的优化器

MBO,即Materialized view Based Optimizer(物化视图驱动的优化器),其核心机制在于利用预计算的OLAP立方体或视图,对输入的SQL查询进行优化。通过评估执行成本,MBO会智能抉择是否采取读取物化对象的存储策略,以实现高效性能。

1.1.4.2.4.智能索引

大数据平台通过优化的数据存储结构,我们得以在其中实施索引构建,从而实现查询效率的显著提升。Inceptor凭借其内置的智能化索引功能,能够自动识别并利用底层存储已存在的索引,在查询过程中优先借助这些索引来提高性能。

智能索引技术具有以下特点:

查询计划智能使用最快速的索引

无需用户在SQL中指定索引

针对特定查询,依据表格所拥有的多元索引,我们将设计并实现差异化的执行策略。

计划

根据成本计算性能最佳的执行计划和索引

支持精确查询和模糊查询

查询延时百毫秒级

Hyperbase兼容众多类型的索引,如全局索引(GlobalIndex),局部索引(Local Index),高维索引(High-dimensional Index)及全文索引(Full-text Index),这些特性使其全面。Inceptor凭借其强大的功能,支持通过SQL进行高并发的毫秒级复杂条件查询。查询过程中,系统智能地选择最快的索引,无需用户在SQL语句中明确指定。针对特定查询,系统会生成多种执行策略,根据成本效益分析,自动优选性能最优的执行计划和索引。它支持精确和模糊搜索,展现出智能索引技术的精准度和卓越性能。这种基于成本优化的执行策略,显著提高了准确率,适应了各种复杂场景,包括条件驱动的多表关联即席查询和统计分析,尤其适用于高效能的在线分析处理(OLAP)数据应用需求。

CBI相较于常规索引方法,表现出更高的精确度和卓越的性能,尤其适应于复杂的使用环境。

1.1.4.3. TDH存储引擎优化

优化整合内存、固态硬盘与传统硬盘的协同存储,实现数据读写速度提升

交互式分析追求的是即时的分析反馈。为了迎合在线事务处理、实时数据分析、接近实时的数据挖掘,以及对操作型数据进行即刻且复杂的分析需求,传统的数据集市和数据仓库预先设计并执行预定义的分析服务。它们通过抽取、转换和加载原始数据,生成物化视图,支持常规分析。然而,这些系统局限于定期检查数据存储中的新增数据,优化分析结果,因此在实时性和灵活性上存在不足。随着数据存储模型的演变和数据量的急剧增长,传统在线分析的局限性日益显现,如数据访问性能下降和连接处理复杂度提升等问题。

Inceptor致力于提升交互式分析的效率,特别引入了基于内存或SSD的高效列式存储解决方案——Holodesk。Holodesk采用列式存储方式,数据存储于内存或SSD,配合内存执行引擎,能够有效消除I/O延迟,显著增强数据扫描的速率。此外,Holodesk还支持对数据字段实施分布式索引构建。得益于智能索引技术,Inceptor能够智能优化SQL查询策略,将查询响应时间压缩至秒级,显著提高了数据处理性能。

Inceptor中Holodesk支持跨内存/闪存介质的分布式混合列式存储,可用于缓存数据供Spark高速访问。Holodesk利用SSD的高IOPS特性进行针对性的存储结构优化,通过列式存储,内置索引等技术,使得在SSD上分析性能比纯内存缓存相差在10%~20%范围左右,提供性能接近的交互式SQL分析能力。由于内存的价格是SSD的近10倍,因此可以采用SSD来替代内存作为缓存,一方面可以增大分布式内存数据库Holodesk存储容量,另一方面可以降低成本,同时性能没有明显损失。

星环的Inceptor分布式内存列式存储系统凭借其强大的SQL接口,能有效地将来自Hyperbase/HBase及HDFS的数据加载至Holodesk。Inceptor专为海量数据的实时交互式分析而设计,实现了秒级别扫描处理数以十亿计的数据点。它的出现旨在提升各业务部门的分析能力,尤其在交互式分析方面,超越了传统数据仓库的局限,提供了前所未有的内存分析效能。

借助Holodesk,用户能够高效地构建多字段组合的OLAP立方体,这些立方体能实时存储于内存或固态硬盘(SSD)之中,无需依赖额外的商业智能工具。因此,在进行复杂统计分析和报表交互查询时,Holodesk能够提供近乎实时的响应能力。在性能优越的同时,其元数据管理和存储具备高可用性设计,凭借一致性协议和多版本控制,有效应对异常情况并支持灾难恢复。在遇到异常时,Holodesk能自动恢复所有表数据,无需人工干预,显著节省开发和运维成本,确保系统的稳定运行和连续性服务。

平台采用针对内存或固态硬盘高IO性能优化的列式存储技术,旨在通过减少IO操作延迟,提升数据扫描效率。

星环科技自主研发的Holodesk产品,专为解决海量数据的OLAP高并发分析查询挑战而设计。作为一款分布式混合列式存储解决方案,它巧妙地整合了内存、闪存与磁盘等多种介质,旨在高效缓存数据,以供Inceptor快速获取。凭借内置索引和Inceptor的强大计算能力,Holodesk能够提供超越开源Spark的实时交互式统计分析性能,实现实时秒级处理数亿条数据记录的能力。通过采用经济高效的内存与闪存混合存储策略,Holodesk逼近全内存存储的分析性能,确保了性能与成本的有效平衡。

TranswarpHolodesk专注于提升交互式分析中的实时查询效能,并强调其扩展性和稳定性。通过集成Zookeeper进行元数据管理,有效防止因单一故障点导致的数据丢失,而数据checkpoint存放在HDFS中。在服务遭遇故障后,凭借Zookeeper中的元数据,Holodesk能自动恢复数据和索引,从而确保高度的业务连续性和可靠性。

1.1.4.3.2.全局索引

平台通过全局索引机制实现高效检索,利用分桶技术优化索引查找效率,从而迅速准确定位所需数据。

Holodesk通过构建全局索引并优化底层存储机制,显著提升了在高过滤率场景下的性能。其特色在于采用桶状表组织策略,得益于分桶技术的应用,效能得以优化。

1)有助于取样

在大数据集中,采取随机抽样的方法获取部分样本。当处理海量数据时,直接应用全部数据来检验系统功能显得不切实际,此时样本数据的运用是必要的。如果数据已按桶划分,每个桶代表数据的离散分布,符合样本选择的标准。因此,取样时可直接选用某一桶中的所有数据作为样本。

2)减少操作量,提高查询速率

当过滤条件与分桶字段匹配时,可以直接依据哈希结果确定记录所属的特定分桶编号。在这种情况下,查询操作仅限于相关分桶,无需扫描全部数据,从而显著提升查询效率。