返回首页
当前位置: 主页 > 编程语言 > Python教程 >

PySpark-序列化器

时间:2020-03-31 10:33来源:电脑教程学习网 www.etwiki.cn 编辑:小山哥

序列化用于Apache Spark上的性能调整。通过网络发送或写入磁盘或保留在内存中的所有数据都应进行序列化。序列化在昂贵的操作中起着重要的作用。

PySpark支持自定义序列化器以进行性能调整。PySpark支持以下两个序列化器-

元帅

使用Python的Marshal序列化器序列化对象。此序列化程序比PickleSerializer快,但支持较少的数据类型。

class pyspark.MarshalSerializer

PickleSerializer

使用Python的Pickle序列化器序列化对象。该序列化器几乎支持任何Python对象,但可能不如更专业的序列化器那么快。

class pyspark.PickleSerializer

让我们看一个关于PySpark序列化的例子。在这里,我们使用MarshalSerializer序列化数据。

--------------------------------------serializing.py-------------------------------------
from pyspark.context import SparkContext
from pyspark.serializers import MarshalSerializer
sc = SparkContext("local", "serialization app", serializer = MarshalSerializer())
print(sc.parallelize(list(range(1000))).map(lambda x: 2 * x).take(10))
sc.stop()
--------------------------------------serializing.py-------------------------------------

命令 -命令如下-

$SPARK_HOME/bin/spark-submit serializing.py

输出 -上面命令的输出是-

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]
 上一页  打印页面
下一页  
广告
 
 

------分隔线----------------------------
标签(Tag):
------分隔线----------------------------
推荐内容
  • PySpark-MLlib

    Apache Spark提供了一个称为 MLlib 的机器学习API 。 PySpark也具有Python的这种机器...

  • PySpark-SparkFiles

    在Apache Spark中,可以使用 sc.addFile (sc是默认的SparkContext) 上载文件,并使...

  • PySpark-SparkContext

    SparkContext是任何Spark功能的入口点。 当我们运行任何Spark应用程序时,将启动一个...

  • PySpark-简介

    在本章中,我们将熟悉Apache Spark是什么以及PySpark是如何开发的。 Spark 概述 Apach...

  • PySpark教程

    Apache Spark用Scala编程语言编写。 为了通过Spark支持Python,Apache Spark社区发布...

  • 基于日志的工件调查

    到目前为止,我们已经看到了如何使用Python在Windows中获取工件。 在本章中,让我们学...

猜你感兴趣