PySpark之Python版本如何选择(详细版)
创始人
2024-03-18 15:12:38
0

问题背景

公司目前有两套Spark集群和一套Hadoop集群用来做 数据相关的存储和计算。Hadoop的版本是2.7,Spark两套集群,一个是2.1.0版本,一个是 2.4.3版本。但是两个Spark集群安装的Python版本都是一样的,都是3.6.8

之前对大数据Spark了解不多,接手之后协助开发在提交 Python Spark任务的时候遇到问题。

最终定位是因为Python版本的问题导致的。

关于PySpark

processing data with Spark in Python

就是使用Python语言开发Spark任务提交进行数据处理。 PySpark的版本和 Spark 本身的版本一致

关于PySpark的安装和使用详见官方文档 https://spark.apache.org/docs/latest/api/python/getting_started/install.html#python-version-supported

Python版本选择

因为使用Python开发Spark任务,使用的Spark版本就和Python有着密切的关系,但是查找了 Spark官网 没有找到明确的地方指定,什么样的Spark版本需要什么样的Python版本

网上也找到一个类似的,但是个人感觉不是很详细。

于是自己使用爬虫的方式,爬取了所有的Python版本清单和Spark清单,然后再选择 Spark对应的Python版本的时候

1、先看当前Spark版本是多少

2、从Spark版本清单中找到该版本的发布时间

3、然后去 Python的版本清单中, 按照python版本排序之后 距离Spark版本的发布时间最近的Python版本,基本就是该Spark版本需要的最新的Python版本了

但是如果是两个发布时间非常接近,那就往下一个Python版本就行。

比如 Spark 2.1.0版本是2016/12/28发布的,距离 2016/12/28 最近的Python版本是3.6.0,发布于2016-12-23,按照常理也知道,Python新版本刚发布5天,Spark发布的版本中立马就支持了,肯定不是很现实。

所以对于 Spark 2.1.0 我们应该选择 3.5.9

  • Python爬取 Spark和Python版本程序 https://gitee.com/colin5063/cws-tools/blob/master/python/grab_spark_python_version.py

  • python 版本清单 https://gitee.com/colin5063/cws-tools/blob/master/common/python_versions.txt

  • spark 版本清单 https://gitee.com/colin5063/cws-tools/blob/master/common/spark_versions.txt

Spark版本对应的Python的最低版本

  • spark 2.1.0 到 2.4.8 版本之间,最低要求是 Python 3.4+

  • spark 3.0.0 以上, 最低要求是 Python 3.7+

Spark版本对应的Python的最高版本

判断的依据就是上面提到的:

Python的版本清单中, **按照python版本排序之后**  距离Spark版本的发布时间最近的Python版本,基本就是该Spark版本需要的最新的Python版本了

目前确定的是:

  • Spark 2.1.0 使用 Python 3.5.2

  • Spark 2.4.3 使用 Python 3.6.8

参考:

1、https://zhuanlan.zhihu.com/p/144151332


原文地址 PySpark之Python版本如何选择(详细版)

相关内容

热门资讯

朱雀基金陈飞:立足产业逻辑 注...   在有安全边际的前提下,重视产业趋势明确且具备“业务延长线”的公司,是朱雀基金陈飞的投资信条。  ...
上海新动力汽车科技股份有限公司... 股票简称:动力新科 动力B股 股票代码:600841 900920 编号:临2025-047上海新...
海富通基金管理有限公司旗下部分... 本公司董事会及董事保证披露的基金2025年第二季度报告所载资料不存在虚假记载、误导性陈述或重大遗漏,...
上半年铁路发送货物19.8亿吨     记者20日从中国国家铁路集团有限公司获悉,今年上半年,国家铁路累计发送货物19.8亿吨,日均...
加沙卫生部门:20日94名加沙... △加沙地带(资料图)总台记者当地时间20日晚间获悉,据加沙地带卫生部门消息,自20日凌晨至当天晚间,...
抗战馆主题展览观众突破10万人...     本报讯(记者  崔毅飞)北京青年报记者从中国人民抗日战争纪念馆了解到,截至7月19日,“为了...
印尼客船起火事件致5人死亡 2... 转自:财联社【印尼客船起火事件致5人死亡 280余人获救】财联社7月21日电,一艘客船20日下午在印...
隆福寺二期9月开街迎客     本报讯(记者  蒋若静)北京青年报记者从东城区了解到,随着招商工作持续推进,备受瞩目的隆福寺...
兴业基金管理有限公司旗下基金2... 本公司董事会及董事保证基金季度报告所载资料不存在虚假记载、误导性陈述或重大遗漏,并对其内容的真实性、...
藏头诗 晨曦我喜欢你 或者是 ... 藏头诗 晨曦我喜欢你 或者是 晨曦我爱你拜托了小学碧嫌没毕业,悔芹手 晨满金地散阳光 ...