返回首页
当前位置: 主页 > 编程语言 > Python教程 >

PySpark-简介

时间:2020-03-28 11:09来源:电脑教程学习网 www.etwiki.cn 编辑:小山哥

在本章中,我们将熟悉Apache Spark是什么以及PySpark是如何开发的。

Spark –概述

Apache Spark是一个闪电般的快速实时处理框架。它进行内存计算以实时分析数据。由于Apache Hadoop MapReduce仅执行批处理并且缺乏实时处理功能,因此它来了。因此,引入了Apache Spark,因为它可以实时执行流处理,还可以处理批处理。

除了实时和批处理之外,Apache Spark还支持交互式查询和迭代算法。Apache Spark有自己的集群管理器,可以在其中托管其应用程序。它利用Apache Hadoop进行存储和处理。它使用HDFS(Hadoop分布式文件系统)进行存储,并且还可以在YARN上运行Spark应用程序

PySpark –概述

Apache Spark用Scala编程语言编写为了通过Spark支持Python,Apache Spark社区发布了一个工具PySpark。使用PySpark,您还可以使用Python编程语言来处理RDD因为有了一个叫做Py4j的库,他们才能够实现这一目标。

PySpark提供了PySpark Shell,该Shell将Python API链接到spark核心并初始化Spark上下文。如今,大多数数据科学家和分析专家都使用Python,因为它具有丰富的库集。将Python与Spark集成是他们的福音。

 上一页  打印页面
下一页  
 
------分隔线----------------------------
标签(Tag):
------分隔线----------------------------
推荐内容
  • PySpark-简介

    在本章中,我们将熟悉Apache Spark是什么以及PySpark是如何开发的。 Spark 概述 Apach...

  • PySpark教程

    Apache Spark用Scala编程语言编写。 为了通过Spark支持Python,Apache Spark社区发布...

  • 基于日志的工件调查

    到目前为止,我们已经看到了如何使用Python在Windows中获取工件。 在本章中,让我们学...

  • Windows-II中的重要工件

    本章讨论Windows中一些更重要的工件及其使用Python的提取方法。 用户活动 具有 NTUSER...

  • 使用电子邮件进行调查

    前面的章节讨论了网络取证的重要性和过程以及所涉及的概念。 在本章中,让我们了解电...

  • Python数字网络取证II

    上一章讨论了使用Python进行网络取证的一些概念。 在本章中,让我们更深入地了解使用P...

猜你感兴趣