AbstractDataset Clase
Clase base de conjuntos de datos en Azure Machine Learning.
Haga referencia TabularDatasetFactory a la clase y FileDatasetFactory a la clase para crear instancias del conjunto de datos.
Constructor AbstractDataset de clase.
Este constructor no se supone que se invoque directamente. El conjunto de datos está diseñado para crearse mediante TabularDatasetFactory la clase y FileDatasetFactory la clase .
Constructor
AbstractDataset()
Métodos
| add_tags |
Agregue pares clave-valor al diccionario de etiquetas de este conjunto de datos. |
| as_named_input |
Proporcione un nombre para este conjunto de datos que se usará para recuperar el conjunto de datos materializado en la ejecución. |
| get_all |
Obtenga todos los conjuntos de datos registrados en el área de trabajo. |
| get_by_id |
Obtenga un conjunto de datos que se guarda en el área de trabajo. |
| get_by_name |
Obtenga un conjunto de datos registrado del área de trabajo por su nombre de registro. |
| get_partition_key_values |
Devuelve valores de clave únicos de partition_keys. valide si partition_keys es un subconjunto válido de conjunto completo de claves de partición, devuelve valores de clave únicos de partition_keys, el valor predeterminado para devolver las combinaciones de claves de clave únicas tomando el conjunto completo de claves de partición de este conjunto de datos si partition_keys es Ninguno.
|
| register |
Registre el conjunto de datos en el área de trabajo proporcionada. |
| remove_tags |
Quite las claves especificadas del diccionario de etiquetas de este conjunto de datos. |
| unregister_all_versions |
Anule el registro de todas las versiones en el nombre de registro de este conjunto de datos del área de trabajo. |
| update |
Realice una actualización local del conjunto de datos. |
add_tags
Agregue pares clave-valor al diccionario de etiquetas de este conjunto de datos.
add_tags(tags=None)
Parámetros
| Nombre | Description |
|---|---|
|
tags
Requerido
|
Diccionario de etiquetas que se van a agregar. |
Devoluciones
| Tipo | Description |
|---|---|
|
Objeto de conjunto de datos actualizado. |
as_named_input
Proporcione un nombre para este conjunto de datos que se usará para recuperar el conjunto de datos materializado en la ejecución.
as_named_input(name)
Parámetros
| Nombre | Description |
|---|---|
|
name
Requerido
|
Nombre del conjunto de datos de la ejecución. |
Devoluciones
| Tipo | Description |
|---|---|
|
Objeto de configuración que describe cómo se debe materializar el conjunto de datos en la ejecución. |
Comentarios
El nombre aquí solo se aplicará dentro de una ejecución de Azure Machine Learning. El nombre solo debe contener caracteres alfanuméricos y de subrayado para que pueda estar disponible como una variable de entorno. Puede usar este nombre para recuperar el conjunto de datos en el contexto de una ejecución mediante dos enfoques:
Variable de entorno:
El nombre será el nombre de la variable de entorno y el conjunto de datos materializado estará disponible como valor de la variable de entorno. Si el conjunto de datos se descarga o monta, el valor será la ruta de acceso descargada o montada. Por ejemplo:
# in your job submission notebook/script:
dataset.as_named_input('foo').as_download('/tmp/dataset')
# in the script that will be executed in the run
import os
path = os.environ['foo'] # path will be /tmp/dataset
Nota:
Si el conjunto de datos se establece en modo directo, el valor será el identificador del conjunto de datos. Después, puede
para recuperar el objeto del conjunto de datos, realice Dataset.get_by_id(os.environ['foo'])
Run.input_datasets:
Se trata de un diccionario donde la clave será el nombre del conjunto de datos que especificó en este método y el valor será el conjunto de datos materializado. Para el conjunto de datos descargado y montado, el valor será la ruta de acceso descargada o montada. Para el modo directo, el valor será el mismo objeto de conjunto de datos que especificó en el script de envío del trabajo.
# in your job submission notebook/script:
dataset.as_named_input('foo') # direct mode
# in the script that will be executed in the run
run = Run.get_context()
run.input_datasets['foo'] # this returns the dataset object from above.
get_all
Obtenga todos los conjuntos de datos registrados en el área de trabajo.
static get_all(workspace)
Parámetros
| Nombre | Description |
|---|---|
|
workspace
Requerido
|
Área de trabajo de AzureML existente en la que se registraron los conjuntos de datos. |
Devoluciones
| Tipo | Description |
|---|---|
|
Diccionario de objetos TabularDataset y FileDataset con clave por su nombre de registro. |
get_by_id
Obtenga un conjunto de datos que se guarda en el área de trabajo.
static get_by_id(workspace, id, **kwargs)
Parámetros
| Nombre | Description |
|---|---|
|
workspace
Requerido
|
Área de trabajo de AzureML existente en la que se guarda el conjunto de datos. |
|
id
Requerido
|
Identificador del conjunto de datos. |
Devoluciones
| Tipo | Description |
|---|---|
|
Objeto de conjunto de datos. Si el conjunto de datos está registrado, también se devolverá su nombre de registro y su versión. |
get_by_name
Obtenga un conjunto de datos registrado del área de trabajo por su nombre de registro.
static get_by_name(workspace, name, version='latest', **kwargs)
Parámetros
| Nombre | Description |
|---|---|
|
workspace
Requerido
|
Área de trabajo de AzureML existente en la que se registró el conjunto de datos. |
|
name
Requerido
|
Nombre del registro. |
|
version
Requerido
|
Versión de registro. El valor predeterminado es "latest". |
Devoluciones
| Tipo | Description |
|---|---|
|
Objeto de conjunto de datos registrado. |
get_partition_key_values
Devuelve valores de clave únicos de partition_keys.
valide si partition_keys es un subconjunto válido de conjunto completo de claves de partición, devuelve valores de clave únicos de partition_keys, el valor predeterminado para devolver las combinaciones de claves de clave únicas tomando el conjunto completo de claves de partición de este conjunto de datos si partition_keys es Ninguno.
# get all partition key value pairs
partitions = ds.get_partition_key_values()
# Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]
partitions = ds.get_partition_key_values(['country'])
# Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)
Parámetros
| Nombre | Description |
|---|---|
|
partition_keys
Requerido
|
claves de partición |
register
Registre el conjunto de datos en el área de trabajo proporcionada.
register(workspace, name, description=None, tags=None, create_new_version=False)
Parámetros
| Nombre | Description |
|---|---|
|
workspace
Requerido
|
Área de trabajo para registrar el conjunto de datos. |
|
name
Requerido
|
Nombre con el que se va a registrar el conjunto de datos. |
|
description
Requerido
|
Descripción de texto del conjunto de datos. El valor predeterminado es Ninguno. |
|
tags
Requerido
|
Diccionario de etiquetas de valor de clave para proporcionar el conjunto de datos. El valor predeterminado es Ninguno. |
|
create_new_version
Requerido
|
Boolean para registrar el conjunto de datos como una nueva versión con el nombre especificado. |
Devoluciones
| Tipo | Description |
|---|---|
|
Objeto de conjunto de datos registrado. |
remove_tags
Quite las claves especificadas del diccionario de etiquetas de este conjunto de datos.
remove_tags(tags=None)
Parámetros
| Nombre | Description |
|---|---|
|
tags
Requerido
|
Lista de claves que se van a quitar. |
Devoluciones
| Tipo | Description |
|---|---|
|
Objeto de conjunto de datos actualizado. |
unregister_all_versions
Anule el registro de todas las versiones en el nombre de registro de este conjunto de datos del área de trabajo.
unregister_all_versions()
Comentarios
La operación no cambia ningún dato de origen.
update
Realice una actualización local del conjunto de datos.
update(description=None, tags=None)
Parámetros
| Nombre | Description |
|---|---|
|
description
Requerido
|
Nueva descripción que se va a usar para el conjunto de datos. Esta descripción reemplaza la descripción existente. El valor predeterminado es la descripción existente. Para borrar la descripción, escriba una cadena vacía. |
|
tags
Requerido
|
Diccionario de etiquetas con el que se va a actualizar el conjunto de datos. Estas etiquetas reemplazan las etiquetas existentes para el conjunto de datos. El valor predeterminado es las etiquetas existentes. Para borrar etiquetas, escriba un diccionario vacío. |
Devoluciones
| Tipo | Description |
|---|---|
|
Objeto de conjunto de datos actualizado. |
Atributos
data_changed_time
Devuelve la hora de cambio de los datos de origen.
Devoluciones
| Tipo | Description |
|---|---|
|
Hora en la que se produjo el cambio más reciente en los datos de origen. |
Comentarios
La hora de cambio de datos está disponible para el origen de datos basado en archivos. No se devolverá ninguno cuando no se admita el origen de datos para comprobar cuándo se ha producido el cambio.
description
Devuelve la descripción del registro.
Devoluciones
| Tipo | Description |
|---|---|
|
Descripción del conjunto de datos. |
id
Devuelve el identificador del conjunto de datos.
Devoluciones
| Tipo | Description |
|---|---|
|
Id. del conjunto de datos. Si el conjunto de datos no se guarda en ninguna área de trabajo, el identificador será Ninguno. |
name
partition_keys
tags
Devuelve las etiquetas de registro.
Devoluciones
| Tipo | Description |
|---|---|
|
Etiquetas de conjunto de datos. |