教程:使用 Visual Studio Code 的 Databricks 扩展程序在群集上以作业形式运行 Python

本教程将指导你设置用于Visual Studio Code的 Databricks 扩展,然后在Azure Databricks群集上运行Python,并在远程工作区中作为Azure Databricks作业运行。 请参阅 Visual Studio Code 的 Databricks 扩展

要求

本教程要求:

  • 你已安装用于Visual Studio Code的 Databricks 扩展。 请参阅 在 Visual Studio Code 中安装 Databricks 扩展
  • 您有一个远程的 Azure Databricks 集群可供使用。 记下群集的名称。 若要查看可用的群集,请在Azure Databricks工作区边栏中单击Compute。 请参阅计算

步骤 1:创建新的 Databricks 项目

在此步骤中,你将创建新的 Databricks 项目,并配置与远程Azure Databricks工作区的连接。

  1. 启动Visual Studio Code,然后单击File >打开文件夹并在本地开发计算机上打开一些空文件夹。
  2. 在边栏上,单击“Databricks”徽标图标。 这将打开 Databricks 扩展。
  3. 在“配置”视图中,单击“创建配置”
  4. 此时会打开用于配置 Databricks 工作区的“命令面板”。 对于“Databricks 主机”,请输入或选择每个工作区的 URL,例如 https://adb-1234567890123456.7.azuredatabricks.net
  5. 为项目选择一个身份验证配置文件。 请参阅 为 Visual Studio Code 的 Databricks 扩展设置授权

步骤 2:将群集信息添加到 Databricks 扩展并启动群集

  1. 在已打开的“配置”视图中,单击“选择群集”或单击齿轮(“配置群集”)图标。

    配置群集

  2. 在“命令面板”中,选择之前创建的群集的名称。

  3. 如果尚未启动,请单击播放图标(“启动群集”)。

步骤 3:创建并运行Python代码

  1. 创建本地Python代码文件:在边栏上,单击文件夹(Explorer)图标。

  2. 在主菜单上,单击File >新建文件并选择Python文件。 将文件 命名为 demo.py ,并将其保存到项目的根目录中。

  3. 将以下代码添加到文件,然后将其保存。 此代码将创建并显示基本 PySpark 数据帧的内容:

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. 单击编辑器选项卡列表旁边的“在 Databricks 上运行”图标,然后单击“上传并运行文件”。 输出将显示在“调试控制台”视图中。

    从图标上传并运行文件

    或者,在“资源管理器”视图中,右键单击 demo.py 文件,然后单击“在 Databricks 上运行”>“上传和运行文件”。

    从上下文菜单上传并运行文件

步骤 4:将代码作为作业运行

若要作为作业运行 demo.py,请单击编辑器选项卡列表旁边的“在 Databricks 上运行”图标,然后单击“将文件作为工作流运行”。 输出会显示在 demo.py 文件编辑器旁边单独的编辑器选项卡中。

从图标将文件作为工作流运行

或者,右键单击资源管理器面板中的 demo.py 文件,然后选择“在 Databricks 上运行”“将文件作为工作流运行”。

从上下文菜单将文件作为工作流运行

后续步骤

现已成功使用 Databricks 扩展用于 Visual Studio Code 上传本地 Python 文件并远程运行,您还可以: