Compartir a través de


Shell de PySpark

Nota:

En este artículo se describe Databricks Connect para Databricks Runtime 14.0 y versiones posteriores.

Databricks Connect para Python incluye un pyspark binario que es una REPL de PySpark (un shell de Spark) configurado para usar Databricks Connect.

Iniciar el terminal

Para iniciar el shell de Spark y conectarlo al clúster en ejecución, ejecute el siguiente comando desde el entorno virtual de Python activado.

Nota:

Cuando se inicia sin parámetros adicionales, el shell recoge las credenciales predeterminadas del entorno (por ejemplo, las DATABRICKS_ variables de entorno o el DEFAULT perfil de configuración) para conectarse al clúster de Azure Databricks. Para obtener información sobre cómo configurar una conexión, consulte Configuración de proceso para Databricks Connect.

pyspark

Aparece el shell de Spark, por ejemplo:

Python 3.10 ...
[Clang ...] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
      ____              __
      / __/__  ___ _____/ /__
   _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 13.x.dev0
      /_/

Using Python version 3.10 ...
Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
SparkSession available as 'spark'.
>>>

Una vez que se inicia el shell, el spark objeto está disponible para ejecutar comandos de Apache Spark en el clúster de Databricks. Ejecute un comando pySpark simple, como spark.range(1,10).show(). Si no hay errores, se ha conectado correctamente.

Usa el shell

Consulte Análisis interactivo con el shell de Spark para obtener información sobre cómo usar el shell de Spark con Python para ejecutar comandos en el proceso.

Use la variable integrada spark para representar el elemento SparkSession del clúster en ejecución, por ejemplo:

>>> df = spark.read.table("samples.nyctaxi.trips")
>>> df.show(5)
+--------------------+---------------------+-------------+-----------+----------+-----------+
|tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
+--------------------+---------------------+-------------+-----------+----------+-----------+
| 2016-02-14 16:52:13|  2016-02-14 17:16:04|         4.94|       19.0|     10282|      10171|
| 2016-02-04 18:44:19|  2016-02-04 18:46:00|         0.28|        3.5|     10110|      10110|
| 2016-02-17 17:13:57|  2016-02-17 17:17:55|          0.7|        5.0|     10103|      10023|
| 2016-02-18 10:36:07|  2016-02-18 10:41:45|          0.8|        6.0|     10022|      10017|
| 2016-02-22 14:14:41|  2016-02-22 14:31:52|         4.51|       17.0|     10110|      10282|
+--------------------+---------------------+-------------+-----------+----------+-----------+
only showing top 5 rows

Todo el código de Python se ejecuta localmente, mientras que todo el código de PySpark que involucra operaciones de DataFrame se ejecuta en el clúster en el área de trabajo remota de Azure Databricks y las respuestas de ejecución se envían de vuelta al autor de la llamada local.

Detener el shell

Para detener el shell de Spark, presiona Ctrl + d o Ctrl + z, o ejecute el comando quit() o exit().