返回首页
当前位置: 主页 > 编程语言 > Python教程 >

PySpark-环境设置

时间:2020-03-28 11:09来源:电脑教程学习网 www.etwiki.cn 编辑:小山哥

在本章中,我们将了解PySpark的环境设置。

 -这是考虑到您的计算机上已安装Java和Scala。

现在让我们通过以下步骤下载并设置PySpark。

步骤1-转到Apache Spark官方下载页面,并在此处下载最新版本的Apache Spark。在本教程中,我们使用spark-2.1.0-bin-hadoop2.7

步骤2-现在,解压缩下载的Spark tar文件。默认情况下,它将在Downloads目录中下载。

# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz

它将创建目录spark-2.1.0-bin-hadoop2.7在启动PySpark之前,您需要设置以下环境来设置Spark路径和Py4j路径

export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7
export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin
export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PATH = $SPARK_HOME/python:$PATH

或者,要全局设置上述环境,请将它们放在.bashrc文件中然后运行以下命令以使环境正常工作。

# source .bashrc

现在我们已经设置了所有环境,让我们转到Spark目录并通过运行以下命令来调用PySpark shell-

# ./bin/pyspark

这将启动您的PySpark Shell。

Python 2.7.12 (default, Nov 19 2016, 06:48:10) 
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.1.0
      /_/
Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)
SparkSession available as 'spark'.
<<<
 上一页  打印页面

------分隔线----------------------------
标签(Tag):
------分隔线----------------------------
推荐内容
  • PySpark-SparkContext

    SparkContext是任何Spark功能的入口点。 当我们运行任何Spark应用程序时,将启动一个...

  • PySpark-简介

    在本章中,我们将熟悉Apache Spark是什么以及PySpark是如何开发的。 Spark 概述 Apach...

  • PySpark教程

    Apache Spark用Scala编程语言编写。 为了通过Spark支持Python,Apache Spark社区发布...

  • 基于日志的工件调查

    到目前为止,我们已经看到了如何使用Python在Windows中获取工件。 在本章中,让我们学...

  • Windows-II中的重要工件

    本章讨论Windows中一些更重要的工件及其使用Python的提取方法。 用户活动 具有 NTUSER...

  • 使用电子邮件进行调查

    前面的章节讨论了网络取证的重要性和过程以及所涉及的概念。 在本章中,让我们了解电...

猜你感兴趣