Transformar dados executando uma atividade de Python no Azure Databricks

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Data Factory no Microsoft Fabric é a próxima geração de Azure Data Factory, com uma arquitetura mais simples, IA interna e novos recursos. Se você não estiver familiarizado com a integração de dados, comece com Fabric Data Factory. As cargas de trabalho existentes do ADF podem ser atualizadas para Fabric para acessar novos recursos em ciência de dados, análise em tempo real e relatórios.

A atividade Azure Databricks Python em uma pipeline executa um arquivo Python em seu cluster Azure Databricks. Este artigo se baseia no artigo sobre atividades de transformação de dados que apresenta uma visão geral da transformação de dados e as atividades de transformação permitidas. Azure Databricks é uma plataforma gerenciada para executar o Apache Spark.

Para ver uma introdução de 11 minutos e uma demonstração desse recurso, assista ao seguinte vídeo:

Adicionar uma atividade de Python para Azure Databricks a um pipeline com a interface do usuário

Para usar uma atividade de Python para Azure Databricks em um pipeline, conclua as seguintes etapas:

Pesquise Python no painel Atividades do pipeline e arraste uma atividade Python para a tela do pipeline.
Selecione a nova atividade de Python na tela se ela ainda não estiver selecionada.
Selecione a guia Azure Databricks para selecionar ou criar um novo serviço vinculado Azure Databricks que executará a atividade Python.
Selecione a guia Settings e especifique o caminho dentro de Azure Databricks para um arquivo Python a ser executado, parâmetros opcionais a serem passados e quaisquer bibliotecas adicionais a serem instaladas no cluster para executar o trabalho.

Definição de atividade de Python do Databricks

Aqui está a definição JSON de exemplo de uma Atividade de Python do Databricks:

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksSparkPython",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedService",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "pythonFile": "dbfs:/docs/pi.py",
            "parameters": [
                "10"
            ],
            "libraries": [
                {
                    "pypi": {
                        "package": "tensorflow"
                    }
                }
            ]
        }
    }
}

Propriedades da Atividade Python no Databricks

A tabela a seguir descreve as propriedades JSON usadas na definição de JSON:

Propriedade	Descrição	Obrigatório
nome	Nome da atividade na linha de processamento.	Sim
descrição	Texto que descreve o que a atividade faz.	Não
tipo	Para o Databricks Python Activity, o tipo de atividade é DatabricksSparkPython.	Sim
linkedServiceName	Nome do Serviço Vinculado do Databricks no qual a atividade Python é executada. Para saber mais sobre esse serviço vinculado, consulte o artigo Compute linked services (Serviços de computação vinculados).	Sim
pythonFile	O URI do arquivo Python a ser executado. Há suporte para apenas os caminhos DBFS.	Sim
parâmetros	Parâmetros de linha de comando que serão passados para o arquivo Python. Isto é uma matriz de cadeias de caracteres.	Não
bibliotecas	Uma lista de bibliotecas a serem instaladas no cluster, que executará o trabalho. Pode ser um array de <string, object>	Não

Bibliotecas suportadas para atividades do Databricks

Na definição da atividade acima do Databricks você especifica esses tipos de biblioteca: jar, egg, maven, pypi, cran.

{
    "libraries": [
        {
            "jar": "dbfs:/mnt/libraries/library.jar"
        },
        {
            "egg": "dbfs:/mnt/libraries/library.egg"
        },
        {
            "maven": {
                "coordinates": "org.jsoup:jsoup:1.7.2",
                "exclusions": [ "slf4j:slf4j" ]
            }
        },
        {
            "pypi": {
                "package": "simplejson",
                "repo": "http://my-pypi-mirror.com"
            }
        },
        {
            "cran": {
                "package": "ada",
                "repo": "https://cran.us.r-project.org"
            }
        }
    ]
}

Para obter mais detalhes, consulte documentação do Databricks para tipos de biblioteca.

Como carregar uma biblioteca no Databricks

Você pode usar a interface do usuário do Workspace:

Usar a IU do workspace do Databricks
Para obter o caminho dbfs da biblioteca adicionada usando a interface do usuário, você pode usar a CLI do Databricks.

Normalmente, as bibliotecas Jar são armazenadas em dbfs:/FileStore/jars ao usar a interface do usuário. Você pode listar todos os por meio da CLI: databricks fs ls dbfs:/FileStore/job-jars

Ou você pode usar a CLI do Databricks:

Siga Copie a biblioteca usando a CLI do Databricks
Usar a CLI do Databricks (etapas de instalação)

Por exemplo, para copiar um JAR para dbfs: dbfs cp SparkPi-assembly-0.1.jar dbfs:/docs/sparkpi.jar

Comentários

Esta página foi útil?

Last updated on 2026-04-07