Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Nota:
En este artículo se describe Databricks Connect para Databricks Runtime 14.0 y versiones posteriores.
Databricks Connect para Python incluye un pyspark binario que es una REPL de PySpark (un shell de Spark) configurado para usar Databricks Connect.
Iniciar el terminal
Para iniciar el shell de Spark y conectarlo al clúster en ejecución, ejecute el siguiente comando desde el entorno virtual de Python activado.
Nota:
Cuando se inicia sin parámetros adicionales, el shell recoge las credenciales predeterminadas del entorno (por ejemplo, las DATABRICKS_ variables de entorno o el DEFAULT perfil de configuración) para conectarse al clúster de Azure Databricks. Para obtener información sobre cómo configurar una conexión, consulte Configuración de proceso para Databricks Connect.
pyspark
Aparece el shell de Spark, por ejemplo:
Python 3.10 ...
[Clang ...] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 13.x.dev0
/_/
Using Python version 3.10 ...
Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
SparkSession available as 'spark'.
>>>
Una vez que se inicia el shell, el spark objeto está disponible para ejecutar comandos de Apache Spark en el clúster de Databricks. Ejecute un comando pySpark simple, como spark.range(1,10).show(). Si no hay errores, se ha conectado correctamente.
Usa el shell
Consulte Análisis interactivo con el shell de Spark para obtener información sobre cómo usar el shell de Spark con Python para ejecutar comandos en el proceso.
Use la variable integrada spark para representar el elemento SparkSession del clúster en ejecución, por ejemplo:
>>> df = spark.read.table("samples.nyctaxi.trips")
>>> df.show(5)
+--------------------+---------------------+-------------+-----------+----------+-----------+
|tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
+--------------------+---------------------+-------------+-----------+----------+-----------+
| 2016-02-14 16:52:13| 2016-02-14 17:16:04| 4.94| 19.0| 10282| 10171|
| 2016-02-04 18:44:19| 2016-02-04 18:46:00| 0.28| 3.5| 10110| 10110|
| 2016-02-17 17:13:57| 2016-02-17 17:17:55| 0.7| 5.0| 10103| 10023|
| 2016-02-18 10:36:07| 2016-02-18 10:41:45| 0.8| 6.0| 10022| 10017|
| 2016-02-22 14:14:41| 2016-02-22 14:31:52| 4.51| 17.0| 10110| 10282|
+--------------------+---------------------+-------------+-----------+----------+-----------+
only showing top 5 rows
Todo el código de Python se ejecuta localmente, mientras que todo el código de PySpark que involucra operaciones de DataFrame se ejecuta en el clúster en el área de trabajo remota de Azure Databricks y las respuestas de ejecución se envían de vuelta al autor de la llamada local.
Detener el shell
Para detener el shell de Spark, presiona Ctrl + d o Ctrl + z, o ejecute el comando quit() o exit().