Compartir a través de


Ingesta de datos en Azure Data Lake Storage Gen2

En este artículo, aprenderá a ingerir datos de una ubicación a otra en una cuenta de almacenamiento de Azure Data Lake Gen 2 (Azure Data Lake Gen 2) mediante Azure Synapse Analytics.

Prerrequisitos

  • Suscripción de Azure: si no tiene una suscripción de Azure, cree una cuenta gratuita de Azure antes de empezar.
  • Cuenta de Azure Storage: se usa Azure Data Lake Gen 2 como almacén de datos de origen. Si no tiene una cuenta de almacenamiento, consulte Creación de una cuenta de Azure Storage para conocer los pasos para crear una.

Crear servicios vinculados

En Azure Synapse Analytics, un servicio vinculado es el lugar donde se define la información de conexión a otros servicios. En esta sección, agregará Azure Synapse Analytics y Azure Data Lake Gen 2 como servicios vinculados.

  1. Abra la experiencia de usuario de Azure Synapse Analytics y vaya a la pestaña Administrar .
  2. En Conexiones externas, seleccione Servicios vinculados.
  3. Para agregar un servicio vinculado, seleccione Nuevo.
  4. Seleccione el icono de Azure Data Lake Storage Gen2 de la lista y seleccione Continuar.
  5. Especifique las credenciales de autenticación. Actualmente, la clave de cuenta, la entidad de servicio y la identidad administrada son los tipos de autenticación admitidos. Seleccione Probar conexión para comprobar que las credenciales son correctas.
  6. Seleccione Crear cuando termine.

Creación de una canalización

Una canalización contiene el flujo lógico para una ejecución de un conjunto de actividades. En esta sección, creará una canalización que contiene una actividad de copia que ingiere datos de Azure Data Lake Gen2 en un grupo de SQL dedicado.

  1. Vaya a la pestaña Orquestar. Seleccione el icono de signo más situado junto al encabezado de canalizaciones y seleccione canalización.
  2. En Mover y transformar en el panel de actividades, arrastre Copiar datos al lienzo de la canalización.
  3. Seleccione en la actividad de copia y vaya a la pestaña Origen . Seleccione Nuevo para crear un nuevo conjunto de datos de origen.
  4. Seleccione Azure Data Lake Storage Gen2 como almacén de datos y seleccione Continuar.
  5. Seleccione DelimitedText como formato y seleccione Continuar.
  6. En el panel de propiedades de configuración, seleccione el servicio vinculado de ADLS que creó. Especifique la ruta de acceso del archivo de los datos de origen y especifique si la primera fila tiene un encabezado. Puede importar el esquema desde el almacén de archivos o un archivo de ejemplo. Seleccione Aceptar cuando termine.
  7. Vaya a la pestaña Receptor . Seleccione Nuevo para crear un nuevo conjunto de datos de receptor.
  8. Seleccione Azure Data Lake Storage gen2 como almacén de datos y seleccione Continuar.
  9. Seleccione DelimitedText como formato y seleccione Continuar.
  10. En el panel de propiedades de configuración, seleccione el servicio vinculado de ADLS que creó. Especifique la ruta de acceso de la carpeta donde desea escribir datos. Seleccione Aceptar cuando termine.

Depuración y publicación de la canalización

Una vez que haya terminado de configurar la canalización, puede ejecutar una depuración antes de publicar los artefactos para verificar que todo esté correcto.

  1. Para depurar la canalización, seleccione Depurar en la barra de herramientas. Verá el estado de ejecución de la canalización en la pestaña Output (Salida) en la parte inferior de la ventana.
  2. Una vez que la canalización se pueda ejecutar correctamente, en la barra de herramientas superior, seleccione Publicar todo. Esta acción publica entidades (conjuntos de datos y canalizaciones) que creó en el servicio Synapse Analytics.
  3. Espere a que aparezca el mensaje Successfully published (Publicado correctamente). Para ver los mensajes de notificación, seleccione el botón de campana en la parte superior derecha.

Activa y supervisa la tubería

En este paso, desencadenará manualmente la canalización que publicó en el paso anterior.

  1. Seleccione Add Trigger (Agregar desencadenador) en la barra de herramientas y, después, seleccione Trigger Now (Desencadenar ahora). En la página Pipeline Run, seleccione Finalizar.
  2. Vaya a la pestaña Monitor ubicada en la barra lateral izquierda. Verá una ejecución de canalización que se desencadena de forma manual. Puede usar vínculos en la columna Acciones para ver los detalles de la actividad y volver a ejecutar la canalización.
  3. Para ver las ejecuciones de actividad asociadas con la ejecución de canalización, seleccione el vínculo View Activity Runs (Ver ejecuciones de actividad) en la columna Actions (Acciones). En este ejemplo, solo hay una actividad, así que solo verá una entrada en la lista. Para obtener más información sobre la operación de copia, seleccione el vínculo Detalles (icono de gafas) en la columna Acciones . Seleccione Pipeline Runs (Ejecuciones de canalización) en la parte superior para volver a la vista Pipeline Runs (Ejecuciones de canalización). Para actualizar la vista, seleccione Refresh (Actualizar).
  4. Compruebe que los datos están escritos correctamente en el grupo de SQL dedicado.

Pasos siguientes

Para más información sobre la integración de datos para Azure Synapse Analytics, consulte el artículo Ingesta de datos en un grupo de SQL dedicado .