练习三:安装 Jupyter 并运行 pyspark¶
参考资料¶
- JupyterLab 出 Windows 桌面版了!
- Jupyter Notebooks:您一直在寻觅的基于Web的开发工具
- Jupyter Lab 安装和基本设置 - 简书
- win10安装jdk1.8(附国内下载镜像)- CSDN
- Windows下pyspark的环境搭建 - 知乎
- PySpark数据分析基础:Spark本地环境部署搭建 - CSDN
- Spark 学习笔记 13 之 Spark 的 wordCount 案例分析 - 知乎
- Spark 学习实例(Python):单词统计 Word Count - CSDN
- 修改 Jupyter Lab、Jupyter Notebook 的工作目录 - CSDN
- 无法加载文件C:\Users\xxx\Documents\WindowsPowerShell\profile.ps1,因为在此系统上禁止运行脚本 - CSDN
一、实验目的¶
- 学习并了解 JupyterLab 与 Jupyter Notebook
- 安装 Jupyterlab 并成功运行 PySpark
- 在 JupyterLab 软件中编写运行 Spark 的 WordCount 程序,并写出实验报告
二、实验平台¶
- 编程环境:Miniconda3 (Python3.9)、JDK1.8
- 相关 Python 环境包:Jupyter Notebook、JupyterLab、PySpark
- 开发平台:JupyterLab Windows 桌面版
三、实验内容和要求¶
1 环境配置¶
1.1 创建虚拟环境¶
以下操作均建立在已经安装 Anaconda / Miniconda 的基础上,并在 命令行 中进行的。
创建虚拟环境 bigdata
1 |
|
激活虚拟环境
1 |
|
1.2 安装并启动 Jupyter Notebook¶
清华镜像安装 notebook
1 |
|
每次启动,都需要输入如下命令进行启动;如需关闭直接在启动的控制台 ctrl+c
即可退出。
启动 Jupyter
1 |
|
1.3 安装 JAVA¶
下载并安装 JAVA 的 JDK,官网的必须注册账户才能下载,推荐使用华为云下载
-
Oracle 官网 JDK1.8 下载地址:https://www.oracle.com/java/technologies/javase/javase8-archive-downloads.html
-
【推荐】华为镜像 JDK1.8 下载地址:https://repo.huaweicloud.com/java/jdk/8u181-b13/
-
修改 JDK 安装目录(路径无中文、无空格、无符号)
- 修改 JRE 安装目录(规则同上)
- 配置 JDK 环境变量
- 变量名:
JAVA_HOME
- 变量值:
E:\program\Java\jdk
- 添加
JAVA_CLASSPATH
变量 - 变量名:
JAVA_CLASSPATH
- 变量值:
.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar
- 更改
Path
变量 - 变量名:
Path
- 添加变量值1:
%JAVA_HOME%\bin
- 添加变量值2:
E:\program\Java\jre\bin
!!注:环境变量设置路径为以实际安装路径为准。
- 检查安装情况
1 |
|
1.4 安装 PySpark¶
清华镜像安装 pyspark
1 |
|
- 验证安装情况,启动虚拟环境中的 Python 导入 PySpark 包,如果没有错误提示,即为安装成功。
1.5 安装 JupyterLab Windows 桌面版¶
官网下载地址:https://github.com/jupyterlab/jupyterlab-desktop
- 在安装之前,还需要先在虚拟环境中安装 JupyterLab 包,否则在安装桌面版后,将无法正常启动
清华镜像安装 jupyterlab
1 |
|
-
安装很简单,同意相关条款之后会直接默认安装在
C:\JupyterLab
目录 -
首次运行程序时,需要选定调用 Python 环境,这里我们选择之前创建并配置好的虚拟环境
- JupyterLab 界面介绍
2 配置工作目录¶
2.1 修改 jupyter lab 工作目录¶
由于 JupyterLab 默认的工作目录是 Windows 的当前用户根目录,我们可以将工作目录修改为一个固定的代码存放目录。
参考资料:修改 Jupyter Lab、Jupyter Notebook 的工作目录 - CSDN
-
在除 C 盘外的其他盘根目录下,创建一个名为
myDemo
的文件,用于存放后续代码文件和数据操作文件 -
执行以下命令,在如图显示的文件夹下生成
jupyter_lab_config.py
文件
生成 jupyterlab 配置文件
1 |
|
- 找到配置文件后,双击打开
- 按住
ctrl+f
,搜索ServerApp.root
,将其修改为:
1 |
|
2.2 修改 jupyter notebooks 工作目录¶
- 执行以下命令,在如图显示的文件夹下生成
jupyter_notebook_config.py
文件
生成 jupyter notebook 配置文件
1 |
|
- 找到生成的文件,按住
ctrl+f
,搜索NotebookApp.notebook
,将其修改为:
1 |
|
2.3 创建文件夹¶
重新启动 JupyterLab,此时左侧的工作目录已经修改了,在此目录下创建一个名为 bigdataDemo
的文件夹,用于存放代码文件和数据操作文件,完成后双击进入。
在完成上述配置后,我们就可以开始真正的实验操作了。步骤虽然繁琐,但都是一劳永逸的,后续学习不需要再次配置上述内容。
3 编写并运行 Spark 的 WordCount 程序¶
自己输入一个有几句话的文本文件,用 WordCount 程序进行词频分析。
3.1 数据准备¶
- 在
bigdataDemo
目录下创建文本文件text01.txt
,其内输入如下测试内容:
1 2 |
|
- 创建文件
WordCount.ipynb
即可开始后续编程操作。
3.2 JupyterLab 中实现¶
导入 PySpark 需求包
1 |
|
临时指定 PySpark 环境变量
1 2 |
|
!!注:此处环境变量设置路径为以实际安装路径为准。
主函数
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 |
|
3.3 全部代码¶
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 |
|
四、问题及其解决方法¶
1 问题一¶
1.1 问题描述¶
JupyterLab Windows 桌面版在初次启动时,需要配置程序运行所需的 Python 环境,这个环境中必须包含如下 Python 包,否则将无法运行。
jupyter notebook
jupyterlab
1.2 解决方案¶
在初次运行 jupyterlab 桌面端之前,严格按照上述环境配置部分内容执行即可。
2 问题二¶
2.1 问题描述¶
由于 Spark 是基于 Hadoop 的,而 Hadoop 又是基于 JAVA 开发,并在 Linux 系统上使用的。在 Windows 系统中运行时,一定要先配置好 JAVA 环境。
2.2 解决方案¶
按照环境配置中 JAVA 安装配置好环境即可。在 Windows 上运行 PySpark 不需要安装 Hadoop 和原生 Spark,只需要安装配置好 JDK1.8 即可。
3 问题三¶
3.1 问题描述¶
在使用 conda / pip 安装相关包时,安装速度太慢容易超时。
3.2 解决方案¶
修改为清华、豆瓣等国内镜像源即可,可以临时设置也可以永久设置,任选其一即可。
- 清华大学开源软件镜像站:https://mirrors.tuna.tsinghua.edu.cn/help/pypi/
临时使用清华镜像安装
1 |
|
设为默认镜像
1 |
|
4 问题四¶
4.1 问题描述¶
在使用控制台命令行时,出现如下错误,且无法使用 conda 命令激活虚拟环境:
1 |
|
4.2 解决方案¶
参考:https://blog.csdn.net/qq_42951560/article/details/123859735
在终端中输入命令并选择 Y
1 |
|
查看脚本执行策略
1 |
|
若输出结果 RemoteSigned
则修改成功,再次打开命令行即可恢复正常。
创建日期: 2022-12-27
作者: