申请专栏作者
投稿发布
您的当前位置:主页 > yabo亚博体育下载 > 正文

比Spark快100倍的GPU加速SQL引擎:BlazingSQL开源了

来源: 时间:2019-08-07
请点击下面的广告后浏览!

BlazingSQL 是基于英伟达 RAPIDS 生态系统构建的 GPU 加速 SQL 引擎,可以为各种 ETL 大yabo88滚球集提供 SQL 接口,并且完全运行在 GPU 之上。近日,其研发团队宣布,BlazingSQL 基于 Apache 2.0 许可完全开源!

可思yabo88滚球sykv.com,sykv.cn

开源项目地址: https://github.com/blazingdb/pyBlazing/

可思yabo88滚球sykv.com,sykv.cn

关于 BlazingSQL 可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

? 可思yabo88滚球sykv.com,sykv.cn

?

可思yabo88滚球-人工智能资讯平台sykv.com

yabo亚博体育下载 BlazingSQL 是一个基于英伟达 RAPIDS 生态系统构建的 GPU 加速 SQL 引擎。RAPIDS 包含一组软件库(BlazingSQL、cuDF、cuML、cuGraph),用来在 GPU 上执行端到端的yabo88滚球科学计算和分析管道。RAPIDS 基于 Apache Arrow 列式存储格式,其中 cuDF 是一个 GPU DataFrame 库,用于加载、连接、聚合、过滤和操作yabo88滚球。BlazingSQL 是面向 cuDF 的 SQL 接口,具备支持大规模yabo88滚球科学工作流和企业yabo88滚球集的各种功能。 内容来自可思yabo88滚球sykv.com

官方称,BlazingSQL(几乎)可以处理任何你想要的yabo88滚球。它的前身是 BlazingDB,但因为它并不是一个yabo88滚球库,所以研发团队将 BlazingDB 改名为 BlazingSQL。 可思yabo88滚球sykv.com,sykv.cn

BlazingSQL 主要特性:

可思yabo88滚球sykv.com,sykv.cn

查询外部存储yabo88滚球 :仅需一行代码就可以注册远程存储解决方案,例如 Amazon S3。 可思yabo88滚球-人工智能资讯平台sykv.com

简单的 SQL:非常容易使用,运行 SQL 查询就能得到 GPU DataFrames(GDF)的查询结果。 可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

互操作性:任意一个 RAPIDS 库都可以访问查询到的 GDF,并用于任意的yabo88滚球科学工作负载。

可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

BlazingSQL 解决的痛点

可思yabo88滚球sykv.com,sykv.cn

价格昂贵:进行大规模yabo88滚球科学研究通常需要包含数千台服务器的集群,而 BlazingSQL + RAPIDS 运行相同规模的工作负载只需要其中一小部分基础设施。 可思yabo88滚球sykv.com,sykv.cn

速度慢:在大型yabo88滚球集上运行工作负载和查询可能需要数小时或数天,而 BlazingSQL + RAPIDS 借助 GPU 加速可以在几秒内得到结果,帮助yabo88滚球科学家快速迭代新模型。 可思yabo88滚球-人工智能资讯平台sykv.com

复杂型:yabo88滚球科学工作负载通常基于小yabo88滚球集开发出原型,然后针对分布式系统进行重建。BlazingSQL + RAPIDS 让用户能够只编写一次代码,并且只需要一行代码就能动态地改变分布式集群规模。 本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

在开发团队看来,迄今为止,SQL 是每一个主流分析生态系统的支柱之一,RAPIDS 是下一代分析生态系统,而 BlazingSQL 是 RAPIDS 的 SQL 标准。 可思yabo88滚球sykv.com

BlazingSQL 完全基于 cuDF 和 cuIO 构建,这些项目的新功能会直接影响 BlazingSQL 的功能和性能。同时,由于 BlazingSQL 运行在 GDF 上,它与 RAPIDS 的所有库都是 100%可互操作的。

内容来自可思yabo88滚球sykv.com

如果你正在使用 RAPIDS,或者正在考虑使用 RAPIDS,BlazingSQL 将为你提供更多便利,包括但不限于:

可思yabo88滚球-AI,sykv.com人工智能,深度学习,机器学习,神经网络

降低代码复杂性:SQL 语句非常简单,你可以用单个语句替换数十到数百个 cuDF 函数调用。 本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

连接到yabo88滚球湖:你不再需要同步其他yabo88滚球库,BlazingSQL 可以查询云端或网络文件系统中的任意原始文件。

本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

让 RAPIDS 变得更快:更先进的 SQL 优化器让 RAPIDS 技术栈更智能地运行。 可思yabo88滚球sykv.com,sykv.cn

BlazingSQL 性能表现 本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

目前,BlazingSQL+RAPIDS 已经上线 Google Colab,研发团队在 GCP 上搭建了两个价格相当的集群,一个用于 Spark,另一个用于 BlazingSQL。他们在集群上运行端到端的yabo88滚球分析工作负载:从yabo88滚球湖到 ETL/ 特征工程,再到 XGBoost 训练,并对 Spark 和 BlazingSQL 的性能进行了对比测试。

可思yabo88滚球-www.sykv.cn,sykv.com

研发人员在超过两千万行 Netflow yabo88滚球上运行两次相同的特定工作负载(具体实验参见 Colab 链接)。首先运行 BlazingSQL + RAPIDS,然后使用 PySpark(Spark 2.4.1)再次运行,得到如下结果:

可思yabo88滚球sykv.com,sykv.cn

如果把从 Google Drive 中加载 CSV 到各自 DataFrame 所需的时间考虑在内,BlazingSQL 比 Spark 快 71 倍。

可思yabo88滚球-AI,sykv.com人工智能,深度学习,机器学习,神经网络

?

可思yabo88滚球sykv.com,sykv.cn

?

可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

如果只看 ETL 时间,则BlazingSQL 和 RAPIDS 的速度比 Spark 快 100 倍!

可思yabo88滚球sykv.com

? 内容来自可思yabo88滚球sykv.com

? 可思yabo88滚球sykv.com

运行以下 Colab 演示,用户可以使用免费英伟达 T4 GPU 资源进行同样的测试,对 BlazingSQL 的实际效果进行验证。 可思yabo88滚球sykv.com,sykv.cn

https://colab.research.google.com/drive/1EbPE9FwFur7fE2054BH9s23Kd0FiUgGo 可思yabo88滚球sykv.com,sykv.cn

据介绍,BlazingSQL 大部分性能提升来自团队的内部引擎项目,BlazingSQL 团队的工程师们希望开发一种专为 GPU DataFrames(GDF)构建的 GPU 执行内核,称之为“SIMD 表达式解释器”(SIMD Expression Interpreter)。研发团队分享了一些关于 SIMD 表达式解释器的细节,SIMD 表达式解释器通过几个关键步骤带来提升性能:

本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

接收多个输入,包括 GDF 列、字面量,在不久的将来也会支持函数。

可思yabo88滚球sykv.com,sykv.cn

在加载这些输入时,SIMD 表达式解释器将对 GPU 寄存器的分配进行优化,这可以优化 GPU 线程占用率,并提高性能。

可思yabo88滚球-AI,sykv.com人工智能,深度学习,机器学习,神经网络

然后,虚拟机处理这些输入,并生成多个输出。假设有以下 SQL 查询:

可思yabo88滚球sykv.com,sykv.cn

SELECT colA + colB * 10,sin(colA) - cos(colD)FROM tableA 内容来自可思yabo88滚球sykv.com

在以前,BlazingSQL 会将这条查询语句转换为 5 个操作(+,*,sin,cos, - ),每个操作都需要单独执行。在使用 SIMD 表达式解释器后,它会同时接收(colA、colB、colD)作为输入,并在单次内核执行中执行所有 5 个操作,最终生成两个输出。这意味着 colA 只需要加载一次,而不是两次。

可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人sykv.com

目前,SIMD 表达式解释器支持 BlazingSQL 的过滤和投影,因此它对许多主流的 SQL 查询都有影响。

可思yabo88滚球-www.sykv.cn,sykv.com

如何使用 BlazingSQL

本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

使用 BlazingSQL 在 Amazon S3 中查询 CSV 文件的示例代码:

可思yabo88滚球-AI,sykv.com智能驾驶,人脸识别,区块链,大yabo88滚球


更多 BlazingSQL 的操作方法参见 GitHub 项目和官方网站。

本文来自可思yabo88滚球(sykv.com),转载请联系本站及注明出处

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片 匿名?

关于我们?? 免责声明?? 广告合作?? 版权声明?? 联系方式?? 原创投稿?? 网站地图??

Copyright?2005-2019 Sykv.com 可思yabo88滚球 版权所有 ?? ICP备案:京ICP备14056871号

人工智能资讯?? 人工智能资讯?? 人工智能资讯?? 人工智能资讯

?扫码入群
咨询反馈
扫码关注

微信公众号

返回顶部
关闭