申请专栏作者
您的当前位置:主页 > yabo亚博体育下载 > 正文

一行代码,Pandas秒变分布式,快速处理TB级yabo88滚球

来源: 时间:2018-10-09
请点击下面的广告后浏览!
刚刚在Pandas上为十几KB的yabo88滚球做好了测试写好了处理脚本,上百TB的同类大型yabo88滚球集摆到了面前。这时候,你可能面临着一个两难的选择:

继续用Pandas?可能会相当慢,上百TByabo88滚球不是它的菜。 可思yabo88滚球-www.sykv.cn,sykv.com

(?_?) 然而,Spark啊分布式啊什么的,学习曲线好陡峭哦~在Pandas里写的处理脚本都作废了好桑心哦~ 内容来自可思yabo88滚球

?

内容来自可思yabo88滚球

? 内容来自可思yabo88滚球

别灰心,你可能真的不需要Spark了。

可思yabo88滚球-www.sykv.cn,sykv.com

加州大学伯克利分校RiseLab最近在研究的Pandas on Ray,就是为了让Pandas运行得更快,能搞定TB级yabo88滚球而生的。这个DataFrame库想要满足现有Pandas用户不换API,就提升性能、速度、可扩展性的需求。 可思yabo88滚球-AI,智能驾驶,人脸识别,区块链,大yabo88滚球

研究团队说,只需要替换一行代码,8核机器上的Pandas查询速度就可以提高4倍。

内容来自可思yabo88滚球

其实也就是用一个API替换了Pandas中的部分函数,这个API基于Ray运行。Ray是伯克利年初推出的分布式AI框架,能用几行代码,将家用电脑上的原型算法转换成适合大规模部署的分布式计算应用。

内容来自可思yabo88滚球

Pandas on Ray的性能虽说比不上另一个分布式DataFrame库Dask,但更容易上手,用起来和Pandas几乎没有差别。用户不需要懂分布式计算,也不用学一个新的API。 可思yabo88滚球-www.sykv.cn,sykv.com

与Dask不同的是,Ray使用了Apache Arrow里的共享内存对象存储,不需要对yabo88滚球进行序列化和复制,就能跨进程通讯。

本文来自可思yabo88滚球,转载请联系本站及注明出处

? 本文来自可思yabo88滚球,转载请联系本站及注明出处

? 本文来自可思yabo88滚球,转载请联系本站及注明出处

△ 在8核32G内存的AWS m5.2xlarge实例上,Ray、Dask和Pandas读取csv的性能对比 内容来自可思yabo88滚球

它将Pandas包裹起来并透明地把yabo88滚球和计算分布出去。用户不需要知道他们的系统或者集群有多少核,也不用指定如何分配yabo88滚球,可以继续用之前的Pandas notebook。 本文来自可思yabo88滚球,转载请联系本站及注明出处

前面说过,使用Pandas on Ray需要替换一行代码,其实就是换掉导入语句。 可思yabo88滚球-AI,人工智能,深度学习,机器学习,神经网络

# import pandas as pd
import ray.dataframe as pd

内容来自可思yabo88滚球

这时候你应该看到: 可思yabo88滚球-AI,人工智能,深度学习,机器学习,神经网络

?

本文来自可思yabo88滚球,转载请联系本站及注明出处

? 可思yabo88滚球-AI,人工智能,深度学习,机器学习,神经网络

初始化完成,Ray自动识别了你机器上可用的核心,接下来的用法,就和Pandas一样了。 可思yabo88滚球-AI,人工智能,深度学习,机器学习,神经网络

Pandas on Ray目前还处于早期,实现了Pandas的一部分功能。以一个股票波动的yabo88滚球集为例,它所支持的Pandas功能包括检查yabo88滚球、查询上涨的天数、按日期索引、按日期查询、查询股票上涨的所有日期等等。 可思yabo88滚球-人工智能资讯平台

这个项目的最终目标是在Ray上完整实现Pandas API的功能,让用户可以在云上用Pandas。

内容来自可思yabo88滚球

目前,伯克利RiseLab的研究员们已经用45天时间,实现了Pandas DataFrame API的25%。 本文来自可思yabo88滚球,转载请联系本站及注明出处

? 可思yabo88滚球-人工智能资讯平台

? 可思yabo88滚球-yabo88滚球挖掘,智慧医疗,机器视觉,机器人

革命尚未成功,项目仍在继续。这些人都在为之努力: 可思yabo88滚球

Devin Petersohn, Robert Nishihara, Philipp Moritz, Simon Mo, Kunal Gosar, Helen Che, Harikaran Subbaraj, Peter Veerman, Rohan Singh, Joseph Gonzalez, Ion Stoica, Anthony Joseph

内容来自可思yabo88滚球

更深入地了解Pandas on Ray请看RiseLab博客原文:https://rise.cs.berkeley.edu/blog/pandas-on-ray/ 可思yabo88滚球-www.sykv.cn,sykv.com

试用Pandas on Ray请参考这个文档:https://rise.cs.berkeley.edu/blog/pandas-on-ray/

可思yabo88滚球-AI,智能驾驶,人脸识别,区块链,大yabo88滚球

给Ray团队提要求请到GitHub开issue:https://github.com/ray-project/ray/issues

可思yabo88滚球-AI,人工智能,深度学习,机器学习,神经网络

如果对Ray感兴趣,可以读一读他们的论文:https://arxiv.org/abs/1712.05889

来源:量子位 可思yabo88滚球-AI,智能驾驶,人脸识别,区块链,大yabo88滚球

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片 匿名?
最新文章
热门文章
热点图文

Copyright?2005-2019 Sykv.com 可思yabo88滚球 版权所有 ?? 网站地图?? 联系我们??

人工智能资讯?? 人工智能资讯?? 人工智能资讯?? 人工智能资讯

?扫码入群
咨询反馈
扫码关注

微信公众号

返回顶部