教程：使用 Visual Studio Code 的 Databricks 扩展程序在群集上以作业形式运行 Python

本教程将指导你设置用于Visual Studio Code的 Databricks 扩展，然后在Azure Databricks群集上运行Python，并在远程工作区中作为Azure Databricks作业运行。请参阅 Visual Studio Code 的 Databricks 扩展。

要求

本教程要求：

你已安装用于Visual Studio Code的 Databricks 扩展。请参阅在 Visual Studio Code 中安装 Databricks 扩展。
您有一个远程的 Azure Databricks 集群可供使用。记下群集的名称。若要查看可用的群集，请在Azure Databricks工作区边栏中单击Compute。请参阅计算。

步骤 1：创建新的 Databricks 项目

在此步骤中，你将创建新的 Databricks 项目，并配置与远程Azure Databricks工作区的连接。

启动Visual Studio Code，然后单击File >打开文件夹并在本地开发计算机上打开一些空文件夹。
在边栏上，单击“Databricks”徽标图标。这将打开 Databricks 扩展。
在“配置”视图中，单击“创建配置”。
此时会打开用于配置 Databricks 工作区的“命令面板”。对于“Databricks 主机”，请输入或选择每个工作区的 URL，例如 https://adb-1234567890123456.7.azuredatabricks.net。
为项目选择一个身份验证配置文件。请参阅为 Visual Studio Code 的 Databricks 扩展设置授权。

步骤 2：将群集信息添加到 Databricks 扩展并启动群集

在已打开的“配置”视图中，单击“选择群集”或单击齿轮（“配置群集”）图标。
在“命令面板”中，选择之前创建的群集的名称。
如果尚未启动，请单击播放图标（“启动群集”）。

步骤 3：创建并运行Python代码

创建本地Python代码文件：在边栏上，单击文件夹（Explorer）图标。
在主菜单上，单击File >新建文件并选择Python文件。将文件 命名为 demo.py ，并将其保存到项目的根目录中。

将以下代码添加到文件，然后将其保存。此代码将创建并显示基本 PySpark 数据帧的内容：

from pyspark.sql import SparkSession
from pyspark.sql.types import *

spark = SparkSession.builder.getOrCreate()

schema = StructType([
   StructField('CustomerID', IntegerType(), False),
   StructField('FirstName',  StringType(),  False),
   StructField('LastName',   StringType(),  False)
])

data = [
   [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
   [ 1001, 'Joost',   'van Brunswijk' ],
   [ 1002, 'Stan',    'Bokenkamp' ]
]

customers = spark.createDataFrame(data, schema)
customers.show()

# +----------+---------+-------------------+
# |CustomerID|FirstName|           LastName|
# +----------+---------+-------------------+
# |      1000|  Mathijs|Oosterhout-Rijntjes|
# |      1001|    Joost|      van Brunswijk|
# |      1002|     Stan|          Bokenkamp|
# +----------+---------+-------------------+

单击编辑器选项卡列表旁边的“在 Databricks 上运行”图标，然后单击“上传并运行文件”。输出将显示在“调试控制台”视图中。

或者，在“资源管理器”视图中，右键单击 demo.py 文件，然后单击“在 Databricks 上运行”>“上传和运行文件”。