如何搭建MaxComputeSpark开发环境_云原生大数据计算服务 MaxCompute-阿里云帮助中心

前提条件

搭建Spark开发环境前，请确保您已经在Linux操作系统中安装如下软件：

```
sudo yum install -y java-1.8.0-openjdk-devel.x86_64
```

# 获取Python包。
sudo wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz
# 解压缩Python包。
sudo tar -zxvf Python-2.7.10.tgz
# 切换到解压后的目录，指定安装路径。
cd Python-2.7.10
sudo ./configure --prefix=/usr/local/python2
# 编译并安装Python。
sudo make
sudo make install

# 获取Maven包。
sudo wget https://dlcdn.apache.org/maven/maven-3/3.8.7/binaries/apache-maven-3.8.7-bin.tar.gz
# 解压缩Maven包。
sudo tar -zxvf apache-maven-3.8.7-bin.tar.gz

# 获取Git包。
sudo wget https://github.com/git/git/archive/v2.17.0.tar.gz
# 解压缩Git包。
sudo tar -zxvf v2.17.0.tar.gz
# 安装编译源码所需依赖。
sudo yum install curl-devel expat-devel gettext-devel openssl-devel zlib-devel gcc perl-ExtUtils-MakeMaker
# 切换到解压后的目。
cd git-2.17.0
# 编译。
sudo make prefix=/usr/local/git all
# 安装Git至/usr/local/git路径。
sudo make prefix=/usr/local/git install

sudo tar -xzvf spark-2.3.0-odps0.33.0.tar.gz

# 如果通过yum方式安装，默认安装在usr目录下，您可以按照如下命令查找。如果您自定义了安装路径，请以实际路径为准。
whereis java
ls -lrt /usr/bin/java
ls -lrt /etc/alternatives/java
# 返回信息如下。/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.322.b06-1.1.al7.x86_64即为安装路径。
/etc/alternatives/java -> /usr/lib/jvm/java-1.8.0-openjdk-1.8.0.322.b06-1.1.al7.x86_64/jre/bin/java

# 编辑环境变量配置文件。
vim /etc/profile
# 按下i进入编辑状态后，在配置文件末尾添加环境变量信息。
# JAVA_HOME需要修改为实际Java的安装路径。
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.322.b06-1.1.al7.x86_64
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin:$PATH
# 按ESC退出编辑，按:wq退出配置文件。
# 执行如下命令使修改生效。
source /etc/profile
# 确认Java已配置成功。
java -version
# 返回结果示例如下。
openjdk version "1.8.0_322"
OpenJDK Runtime Environment (build 1.8.0_322-b06)
OpenJDK 64-Bit Server VM (build 25.322-b06, mixed mode)

# 编辑环境变量配置文件。
vim /etc/profile
# 按下i进入编辑状态后，在配置文件末尾添加环境变量信息。
# SPARK_HOME需要修改为实际解压后的Spark客户端包所在路径。
export SPARK_HOME=/home/spark-2.3.0-odps0.33.0
export PATH=$SPARK_HOME/bin:$PATH
# 按ESC退出编辑，按:wq退出配置文件。
# 执行如下命令使修改生效。
source /etc/profile

# 编辑环境变量配置文件。
vim /etc/profile
# 按下i进入编辑状态后，在配置文件末尾添加环境变量信息。
# PATH需要修改为Python的实际安装路径。
export PATH=/usr/bin/python/bin/:$PATH
# 按ESC退出编辑，按:wq退出配置文件。
# 执行如下命令使修改生效。
source /etc/profile
# 确认Python已配置成功。
python --version
# 返回结果示例如下。
Python 2.7.5

# 编辑环境变量配置文件。
vim /etc/profile
# 按下i进入编辑状态后，在配置文件末尾添加环境变量信息。
# MAVEN_HOME需要修改为实际解压后的Maven包所在路径。
export MAVEN_HOME=/home/apache-maven-3.8.7
export PATH=$MAVEN_HOME/bin:$PATH
# 按ESC退出编辑，按:wq退出配置文件。
# 执行如下命令使修改生效。
source /etc/profile
# 确认Maven已配置成功。
mvn -version
# 返回结果示例如下。
Apache Maven 3.8.7 (9b656c72d54e5bacbed989b64718c159fe39b537)
Maven home: /home/apache-maven-3.8.7
Java version: 1.8.0_322, vendor: Red Hat, Inc., runtime: /usr/lib/jvm/java-1.8.0-openjdk-1.8.0.322.b06-1.1.al7.x86_64/jre
Default locale: en_US, platform encoding: UTF-8
OS name: "linux", version: "4.19.91-25.1.al7.x86_64", arch: "amd64", family: "unix"

```
whereis git
```

# 编辑环境变量配置文件。
vim /etc/profile
# 按下i进入编辑状态后，在配置文件末尾添加环境变量信息。# PATH需要修改为Git的实际安装路径。
export PATH=/usr/local/git/bin/:$PATH
# 按ESC退出编辑，按:wq退出配置文件。
# 执行如下命令使修改生效。
source /etc/profile
# 确认Git已配置成功。
git --version
# 返回结果示例如下。
git version 2.24.4

# 切换至Spark客户端包的解压路径，并进入conf文件夹。请以实际路径为准。
cd /home/spark-2.3.0-odps0.33.0/conf
# 修改文件名。
mv spark-defaults.conf.template spark-defaults.conf
# 编辑spark-defaults.conf。
vim spark-defaults.conf
# 按下i进入编辑状态后，在配置文件末尾添加如下配置信息。
spark.hadoop.odps.project.name = <MaxCompute_project_name>  
spark.hadoop.odps.access.id = <AccessKey_id>     
spark.hadoop.odps.access.key = <AccessKey_secret>
spark.hadoop.odps.end.point = <Endpoint>   # Spark客户端连接访问MaxCompute项目的Endpoint，您可以根据自己情况进行修改。详情请参见Endpoint。
spark.hadoop.odps.runtime.end.point = <VPC_endpoint>  # Spark运行环境Endpoint，所在Region的MaxCompute VPC网络的Endpoint。您可以根据自己情况进行修改。
# spark 2.3.0请将spark.sql.catalogImplementation设置为odps，spark 2.4.5请将spark.sql.catalogImplementation设置为hive。
spark.sql.catalogImplementation={odps|hive} 
# 如下参数配置保持不变
spark.hadoop.odps.task.major.version = cupid_v2
spark.hadoop.odps.cupid.container.image.enable = true
spark.hadoop.odps.cupid.container.vm.engine.type = hyper
spark.hadoop.odps.cupid.webproxy.endpoint = http://service.cn.maxcompute.aliyun-inc.com/api
spark.hadoop.odps.moye.trackurl.host = http://jobview.odps.aliyun.com

git clone https://github.com/aliyun/MaxCompute-Spark.git
cd MaxCompute-Spark/spark-1.x
mvn clean package

git clone https://github.com/aliyun/MaxCompute-Spark.git
cd MaxCompute-Spark/spark-2.x
mvn clean package

git clone https://github.com/aliyun/MaxCompute-Spark.git
cd MaxCompute-Spark/spark-3.x
mvn clean package

# 进入spark-1.x文件夹。
cd MaxCompute-Spark/spark-1.x
# 编辑Pom文件，添加odps-spark-datasource依赖。
<dependency>
  <groupId>com.aliyun.odps</groupId>
  <artifactId>odps-spark-datasource_2.10</artifactId>
  <version>3.3.8-public</version>
</dependency>

# 进入spark-2.x文件夹。
cd MaxCompute-Spark/spark-2.x
# 编辑Pom文件，添加odps-spark-datasource依赖。
<dependency>
    <groupId>com.aliyun.odps</groupId>
    <artifactId>odps-spark-datasource_2.11</artifactId>
    <version>3.3.8-public</version>
</dependency>

<dependency>
    <groupId>com.aliyun.odps</groupId>
    <artifactId>hadoop-fs-oss</artifactId>
    <version>3.3.8-public</version>
</dependency>

2. ```
spark.hadoop.odps.cupid.resources=public.python-python-2.7-ucs4.zip,public.myjar.jar
```
```
spark.hadoop.odps.cupid.resources=public.myjar.jar:myjar.jar
```

val targetFile = "文件名"
val file = Source.fromFile(targetFile)
for (line <- file.getLines)
    println(line)
file.close

# /path/to/MaxCompute-Spark请指向正确的编译出来后的应用程序的Jar包。
cd $SPARK_HOME
bin/spark-submit --master yarn-cluster --class com.aliyun.odps.spark.examples.SparkPi \
/path/to/MaxCompute-Spark/spark-2.x/target/spark-examples_2.11-1.0.0-SNAPSHOT-shaded.jar
# 当看到以下日志表明冒烟作业成功。
19/06/11 11:57:30 INFO Client: 
         client token: N/A
         diagnostics: N/A
         ApplicationMaster host: 11.222.166.90
         ApplicationMaster RPC port: 38965
         queue: queue
         start time: 1560225401092
         final status: SUCCEEDED

val spark = SparkSession
      .builder()
      .appName("SparkPi")
      .config("spark.master", "local[4]") // 需要设置spark.master为local[N]才能直接运行，N为并发数。
      .getOrCreate()

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_${scala.binary.version}</artifactId>
    <version>${spark.version}</version>
    <scope>provided</scope> 
</dependency>

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSession$
    at com.aliyun.odps.spark.examples.SparkPi$.main(SparkPi.scala:27)
    at com.aliyun.odps.spark.examples.Spa。r。kPi.main(SparkPi.scala)
Caused by: java.lang.ClassNotFoundException: org.apache.spark.sql.SparkSession$
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:335)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    ... 2 more

val spark = SparkSession
      .builder()
      .appName("SparkPi")
      .config("spark.master", "local[4]") // 需设置spark.master为local[N]才能直接运行，N为并发数。
      .config("spark.hadoop.odps.project.name", "****")
      .config("spark.hadoop.odps.access.id", "****")
      .config("spark.hadoop.odps.access.key", "****")
      .config("spark.hadoop.odps.end.point", "http://service.cn.maxcompute.aliyun.com/api")
      .config("spark.sql.catalogImplementation", "odps")
      .getOrCreate()

- ```
odps.project.name = 
odps.access.id = 
odps.access.key =
odps.end.point =
```

- ```
spark.hadoop.odps.cupid.resources = public.__spark_libs__3.1.1-odps0.33.0.zip,[projectname].[用户主jar包],[projectname].[用户其他jar包]                 
spark.driver.extraClassPath = ./public.__spark_libs__3.1.1-odps0.33.0.zip/*            
spark.executor.extraClassPath = ./public.__spark_libs__3.1.1-odps0.33.0.zip/* 
```
- ```
spark.hadoop.odps.cupid.resources = public.python-3.7.9-ucs4.tar.gz
spark.pyspark.python = ./public.python-3.7.9-ucs4.tar.gz/python-3.7.9-ucs4/bin/python3
```
- - ```
  odps.project.name = 
  odps.access.id = 
  odps.access.key =
  odps.end.point =
```
- ```
val spark = SparkSession
  .builder()
  .config("spark.hadoop.fs.defaultFS", "file:///")
  .enableHiveSupport()
  .getOrCreate()
```

前提条件

下载MaxCompute Spark客户端包并上传至操作系统

设置环境变量

配置spark-defaults.conf

准备项目工程

配置依赖说明

引用外部文件

SparkPi冒烟测试

IDEA本地执行注意事项

Spark 2.4.5使用注意事项

Spark 3.1.1使用注意事项