共 13 篇文章

标签：spark

一行代码，Pandas秒变分布式，快速处理TB级数据

一行代码，Pandas秒变分布式，快速处理TB级数据作者：佚名 2018-03-08 11:43:18 大数据分布式刚刚在Pandas上为十几KB的数据做好了测试写好了处理脚本，上百TB的同类大型数据集摆到了面前。这时候，你可能面临着...

Xmebiz2024-09-20行业资讯阅读(33)去评论

Spark 自己的分布式存储系统 – BlockManager 作者：佚名 2018-05-10 09:34:21 存储存储软件大数据 Spark 分布式 BlockManager 是 spark 中至关重要的一个组件，在...

Xmebiz2024-09-18行业资讯阅读(32)去评论

分布式机器学习平台大比拼：Spark、PMLS、TensorFlow、MXNet 作者：Murat Demirbas 2017-08-22 17:55:35 人工智能机器学习分布式 Spark 本论文从分布式系统的角度开展针对当前一些机...

Xmebiz2024-09-05行业资讯阅读(30)去评论

基于Kubernetes的Spark部署完全指南作者：木木TM 2020-03-06 16:00:04 云计算 Spark 本文是在Kubernets上搭建Spark集群的操作指南，同时提供了Spark测试任务及相关的测试数据，通过阅读本...

Xmebiz2024-09-02行业资讯阅读(25)去评论

Storm、Spark和MapReduce 开源分布式计算系统框架比较 2015-10-15 14:05:51 大数据分布式 Spark 比较项 Storm Spark Streaming 分布式计算在许多领域都有广泛需求，目前流行的分布...

Xmebiz2024-07-06行业资讯阅读(21)去评论

「云原生」apache Livy on k8s 讲解与实战操作作者：大数据老司机 2022-11-08 08:55:31 云计算云原生 Livy是一个提供Rest接口和Spark集群交互的服务。它可以提交Spark Job或者Spark...

Xmebiz2024-06-30行业资讯阅读(29)去评论

Spark集群怎么部署？ Spark是一个快速、通用的分布式计算系统，可以用于大规模数据处理和分析，在实际应用中，我们需要将Spark部署在集群上，以便充分利用多台计算机的计算资源，本文将详细介绍如何部署一个Spark集群，包括准备工作、安...

Xmebiz2024-04-16行业资讯阅读(23)去评论

Spark简介 Spark是一个用于大规模数据处理的快速、通用和开源的分布式计算系统，它提供了一个高层次的API,使得开发人员可以轻松地构建分布式应用程序，Spark的主要特点是速度快、易用性好、支持多种数据源和数据处理模式。如何使用Sp...

Xmebiz2024-04-16行业资讯阅读(25)去评论

Spark中的RDD到底是什么？在Apache Spark中，Resilient Distributed Datasets(弹性分布式数据集，简称RDD)是一个核心概念，RDD是Spark的基本抽象，它表示一个不可变、可分区、可并行计算的...

Xmebiz2024-04-15行业资讯阅读(35)去评论

Spark的架构与运行逻辑 Spark是一个用于大规模数据处理的快速、通用和开源的集群计算系统，它提供了一个高层次的API,使得用户可以轻松地编写分布式数据处理程序，Spark的核心组件包括RDD(弹性分布式数据集)、DataFrame和D...

Xmebiz2024-04-14行业资讯阅读(33)去评论