数据结构论坛

注册

 

发新话题 回复该主题

统一分析平台Vertica最新能力一览 [复制链接]

1#
治疗白癜风北京医院 http://ask.bdfyy999.com/

如今全球数据量、类型与用例需求猛增,各行各界的“平民”数据科学家扩大对数据分析的使用,许多企业不得不重新审视现代化的业务需求与历史系统的兼容性。

没错,“数据分析的势力正在抬头”。来自物联网(IoT)及边缘设备、社交媒体信息流、智能能源网络以及移动通信端的大规模数据集,正源源不断地汇入分析数据库。这为敢于变革的商业组织提供了一个真正的以数据为驱动的机遇,但前提非常苛刻——企业需要有能力全盘管理迅猛的数据增长,并快速洞察其中蕴藏的商机以及吸引回头客的“新常态”、“新周期”。

作为分析数据库的翘楚,Vertica可以自信地帮助您的团队完成数据仓库的现代化改造,“性能不能有丝毫妥协”——在愈来愈流行、通用的混合部署环境之中开展高速分析,并向组织内部普及高级分析技能与知识,以帮助真正转型成为数据驱动型的现代化企业。变革之外,Vertica还被称为“统一分析平台”,它通过其强大、多功能、超灵活及可伸缩的开放式数据库,集中统一并从整体上增强企业开展与提供分析服务的能力。

基于标准的分析

通过使用SQL、R和Python,以便组织中的每个人都可以访问分析数据。

Vertica提供了基于SQL的完整分析功能,可充分利用Vertica群集的所有内存和所有资源。SQL是Vertica的第一语言,也是最常用的语言,适合分析师和数据科学家使用。虽然Vertica在后台存在一些很大的差异,例如列式数据存储和大规模并行处理,但用户根本不需要编写特殊查询或考虑数据结构。相反,您只需运行SQL,它将快速运行。

高级分析功能

包含两倍以上的分析函数,包括时间序列、地理空间和嵌入式机器学习。

借助Vertica,您最终可以将在生产环境中部署机器学习。Vertica支持针对群集优化的机器学习算法、R和Python。数据科学家和分析师可以使用他们首选的工具和语言构建他们的模型,然后利用Vertica为他们提供更大的数据集。数据库中的机器学习可应对机器学习过程中的每个步骤。

更有经验的团队可以通过PMML(预测模型标记语言)格式导入使用其他平台和语言(如TensorFlow、Spark、Python和SPSS)构建和训练的模型。借助PMML模型,您可以导出在Vertica中创建的模型,以便在其他系统(例如物联网使用场景的边缘节点)中进行评分。数据科学和数据工程团队在用其他工具充分利用海量数据时,还可以轻松将机器学习付诸使用。

高性能与速度

大规模并行并经过验证的分析架构,可处理世界上最大的工作负载和最多的查询(经过实践验证)。

如需实现卓越的分析性能,需要实现高效的数据加载、快速的分析查询速度以及高并发处理能力,那么相信Vertica吧。它是专门为此而打造的,可让您尽享三方面的优势。它提供了卓越的负载吞吐量、极快的分析速度、数据库内置的机器学习流程以及多用户查询的高并发性。

您可以快速获得查询结果,将查询时间从数小时缩短到数分钟或从数分钟缩短到数秒,这是过时的行存储技术无法实现的,Vertica的现代架构为您提供了灵活性和可伸缩性。随着工作负载的增加,其灵活性和可伸缩性也会提升。Vertica甚至可以隔离工作负载,为多个部门提供服务,而无需复制数据。借助Vertica的子群集功能,您可以隔离工作负载,从而消除了BI与数据科学项目之间的资源竞争,还能管理端到端机器学习(从数据准备到部署)。无需下载并安装单独的软件包。

高效

通过专有设计,使用的节点比任何其他数据库都少、存储空间也更少。

Vertica提供更好的压缩效果和出色的优化表现。因此,与同类数据分析解决方案相比,您需要的硬件和存储空间更少。

此外,Vertica优化的架构意味着它的查询运行速度比大多数平台快10-50倍,而您同时可以在每台服务器上存储多10-30倍的数据。

Vertica的高效率同时以工具的形式出现。VerticaDatabaseDesigner可改善运营状况并减少资源消耗,同时改进团队的预测设计,以实现一致的快速查询。它会分析您的逻辑模式、样本数据和样本查询,可以创建您可以自动或手动部署的物理模式设计(一组Projections)。它可供任何人使用,甚至是没有专门的数据库知识的用户。

混合环境部署

对SaaS、公共云、私有云、Kubernetes和裸机部署等可随时随地提供分析。

Vertica可帮助您避免被单一云供应商锁定——您可以使用所选的工具并充分利用您现有的底层基础设施,它提供跨多云、本地环境和数据湖的可移植性。

Vertica可在常见的公共云上运行,包括GoogleCloudPlatform(GCP)、Azure、AWS、Alibaba和Vmware云。但是,它可以在本地使用类似的配置运行,同时利用一系列本地对象存储,例如ApacheHadoopHDFS(用于公用存储)、MinIO、VAST、DellECS、Scality、H3C和PureStorage。它创建了一个强大、灵活的平台来运行公司的分析和计算工作负载,因为应用可以在混合云基础设施中的多个环境中同时运行。Vertica可以使用公共云和私有数据中心,并提供即时切换的灵活性。

生态友好

可连接ETL、BI工具以及数百个中间件应用。

Vertica的每个版本都经过了可视化和ETL工具的认证和测试。它支持常见的SQL和Java数据库连接(JDBC)/开放数据库连接(ODBC)。您可以保留多年对这些技术的投资和培训,因为所有常用的SQL编程工具和语言都可以无缝对接。领先的BI和可视化工具紧密集成,例如Tableau和MicroStrategy,以及常用的ETL工具,例如Informatica、Talend、Pentaho等。

既是数仓也是湖

可将数据存储在经过优化的存储库中,或利用您自己的Parquet文件进行分析。

Vertica可以分析位于任何位置(HDFS或云对象存储)的数据,以及所有常见的格式,如ORC、Parquet、JSON或ROS(原生Vertica)。您不需要仅仅为了分析而将数据从一个位置转移到另一个位置,而可以节省时间,就地分析数据以更快实现数据洞察。Vertica还可对复杂的数据类型(如映射和数组、S3上的Parquet中的结构体、HDFS、基于SQL的开放式分析和新用例)进行数据分析。

安全

对数据库中的数据和数据传输过程进行加密保护。

Vertica提供端到的端安全性,支持行业标准协议及合作伙伴解决方案(例如LDAP、Kerberos、TLS、FIPS-2、AWSIAM和ApacheSentry)。Vertica采用分层安全模型,并提供多种安全认证授权机制。身份验证和访问权限通过使用SHA、LDAP、Kerberos和SSL证书存储的密码控制。它支持对行和列数据进行精细的访问权限控制(包括列脱敏),并保留以原生方式导出到其他安全网域的审计追踪记录,以进行分析和持久保存。

Vertica集成了Voltage保留格式加密技术,可确保实现端到端数据保护,从而保护正在使用的数据、动态数据和静态数据。VoltageSecureData向Vertica的分层安全模型中添加了以数据为中心的层,这样有助于遵守CCPA和GDPR等新的数据隐私法规。Voltage加密通过保护敏感数据同时保留数据的长度和字符集,来降低泄露风险。加密可保护结构化数据(例如税号、姓名、地址、GPS位置、IP地址、出生日期和工资)所有典型的个人和受保护的健康信息类型。受保护数据的解密由策略控制,包括必要时需要进行LDAP身份验证和授权。

作为专为高级分析、速度和弹性而设计的可随处部署的SQL数据库,Vertica能提供比任何其他数据分析平台更多的内置分析功能,包括:全面而完整的分析,很多在较小的数据库中找不到的强大的SQL命令,包括时间序列和地理空间分析;预测分析(ML/AI)的简单SQL执行,为分析师提供机器学习的关键;支持Python,可让您使用Vertica群集来加快Python代码的速度;使用归一化、离群值检测,采样、不平衡数据处理、缺失值插补等功能进行数据准备;可在大规模数据集的基础上创建、训练和测试高级机器学习模型;评估模型级统计数据,包括ROC表和混淆矩阵;支持熟悉的编程语言,使用C++、Java、Python或R开发的用户自定义扩展程序(UDx);内置机器学习算法支持分类、聚类和预测应用。这包括线性回归、逻辑回归、k-means、朴素贝叶斯、支持向量机和随机森林。

VerticaAccelerator是我们的数据分析SaaS产品,可提供Vertica统一分析平台的所有功能,在AWS上作为“软件即服务”(SaaS)提供。它在您自己的Amazon云帐户中运行,Vertica专家将帮助您快速入门。您的所有数据分析师和数据科学家都可以利用Vertica高级分析和机器学习的强大功能,而无需担心伸缩、升级、监控或支持。

除此外我们还提供Vertica的客户管理产品,它基于颠覆性的列存储,专为大规模数据集(无论是内部数据、Hadoop数据集、云数据集,还是这些数据集的任何组合)分析而打造的关系型数据库。Vertica的大规模并行处理(MPP)和无共享架构在速度和并发性方面仍然无可匹敌,并为寻求高级AI解决方案的团队提供数据库内机器学习功能,而不会影响关键商业智能SLA的工作负载。

“Vertica,专业做数据库好多年”。我们深知,您的数据分析需求是独一无二的,随时随地都在变化。只有足够先进、灵活与可预测的数据库,才能满足苛刻的业务分析需求,帮助高层管理者洞察企业的未来。

分享 转发
TOP
发新话题 回复该主题