一行代码,Pandas秒变分布式,快速处理TB级数据
一行代码,Pandas秒变分布式,快速处理TB级数据 作者:佚名 2018-03-08 11:43:18 大数据 分布式 刚刚在Pandas上为十几KB的数据做好了测试写好了处理脚本,上百TB的同类大型数据集摆到了面前。这时候,你可能面临着...
一行代码,Pandas秒变分布式,快速处理TB级数据 作者:佚名 2018-03-08 11:43:18 大数据 分布式 刚刚在Pandas上为十几KB的数据做好了测试写好了处理脚本,上百TB的同类大型数据集摆到了面前。这时候,你可能面临着...
Spark 自己的分布式存储系统 – BlockManager 作者:佚名 2018-05-10 09:34:21 存储 存储软件 大数据 Spark 分布式 BlockManager 是 spark 中至关重要的一个组件, 在...
分布式机器学习平台大比拼:Spark、PMLS、TensorFlow、MXNet 作者:Murat Demirbas 2017-08-22 17:55:35 人工智能 机器学习 分布式 Spark 本论文从分布式系统的角度开展针对当前一些机...
基于Kubernetes的Spark部署完全指南 作者:木木TM 2020-03-06 16:00:04 云计算 Spark 本文是在Kubernets上搭建Spark集群的操作指南,同时提供了Spark测试任务及相关的测试数据,通过阅读本...
Storm、Spark和MapReduce 开源分布式计算系统框架比较 2015-10-15 14:05:51 大数据 分布式 Spark 比较项 Storm Spark Streaming 分布式计算在许多领域都有广泛需求,目前流行的分布...
「云原生」apache Livy on k8s 讲解与实战操作 作者:大数据老司机 2022-11-08 08:55:31 云计算 云原生 Livy是一个提供Rest接口和Spark集群交互的服务。它可以提交Spark Job或者Spark...
Spark集群怎么部署? Spark是一个快速、通用的分布式计算系统,可以用于大规模数据处理和分析,在实际应用中,我们需要将Spark部署在集群上,以便充分利用多台计算机的计算资源,本文将详细介绍如何部署一个Spark集群,包括准备工作、安...
Spark简介 Spark是一个用于大规模数据处理的快速、通用和开源的分布式计算系统,它提供了一个高层次的API,使得开发人员可以轻松地构建分布式应用程序,Spark的主要特点是速度快、易用性好、支持多种数据源和数据处理模式。 如何使用Sp...
Spark中的RDD到底是什么? 在Apache Spark中,Resilient Distributed Datasets(弹性分布式数据集,简称RDD)是一个核心概念,RDD是Spark的基本抽象,它表示一个不可变、可分区、可并行计算的...
Spark的架构与运行逻辑 Spark是一个用于大规模数据处理的快速、通用和开源的集群计算系统,它提供了一个高层次的API,使得用户可以轻松地编写分布式数据处理程序,Spark的核心组件包括RDD(弹性分布式数据集)、DataFrame和D...