注意
本文介绍适用于 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect。
本文介绍如何安装用于Python的 Databricks Connect。 请参阅 Databricks Connect。
要求
安装 Databricks Connect 之前,请确保工作区和本地环境满足要求。 请参阅 Databricks Connect 使用情况要求。
激活Python虚拟环境
Databricks 强烈建议为每个 Python 版本使用的 Databricks Connect 激活 Python 虚拟环境。 Python虚拟环境有助于确保你同时使用正确版本的Python和Databricks Connect。 有关这些工具及其激活方式的详细信息,请参阅venv或Poetry。
安装 Databricks Connect 客户端
本部分介绍如何使用 venv 或诗歌安装 Databricks Connect 客户端。
注意
如果已安装用于Visual Studio Code的 Databricks 扩展,则可以使用扩展安装 Databricks Connect for Databricks Runtime 13.3 LTS 及更高版本。 请参阅 在 Visual Studio Code 的 Databricks 插件中使用 Databricks Connect 调试代码。
使用 vnev 安装 Databricks Connect 客户端
激活虚拟环境后,运行
uninstall命令卸载 PySpark(如果已安装)。 这是必需的,因为databricks-connect包与 PySpark 冲突。 有关详细信息,请参阅 PySpark 安装存在冲突。 若要检查是否已安装 PySpark,请运行show命令。# Is PySpark already installed? pip3 show pyspark # Uninstall PySpark pip3 uninstall pyspark在虚拟环境仍处于激活状态的情况下,运行
install命令安装 Databricks Connect 客户端。 使用--upgrade选项将任何现有客户端安装升级到指定的版本。pip3 install --upgrade "databricks-connect==17.3.*" # Or X.Y.* to match your cluster version.注意
Databricks 建议追加“.*”符号来指定
databricks-connect==X.Y.*,而不是databricks-connect=X.Y,以确保安装最新的包。 虽然并不要求如此,但这样有助于确保为该群集使用最新的受支持功能。
使用 Poetry 安装 Databricks Connect 客户端
激活虚拟环境后,运行
remove命令卸载 PySpark(如果已安装)。 这是必需的,因为databricks-connect包与 PySpark 冲突。 有关详细信息,请参阅 PySpark 安装存在冲突。 若要检查是否已安装 PySpark,请运行show命令。# Is PySpark already installed? poetry show pyspark # Uninstall PySpark poetry remove pyspark在虚拟环境仍处于激活状态的情况下,运行
add命令安装 Databricks Connect 客户端。poetry add databricks-connect@~17.3 # Or X.Y to match your cluster version.注意
Databricks 建议使用“at-tilde”表示法来指定
databricks-connect@~17.3而不是databricks-connect==17.3,以确保安装最新的包。 虽然并不要求如此,但这样有助于确保为该群集使用最新的受支持功能。