DatasetDefinition Clase
Define una serie de pasos que especifican cómo leer y transformar datos en un conjunto de datos.
Nota:
Esta clase está en desuso. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
Un conjunto de datos registrado en un área de trabajo de Azure Machine Learning puede tener varias definiciones, cada una creada mediante una llamada a update_definition. Cada definición tiene un identificador único. La definición actual es la más reciente creada.
Para conjuntos de datos no registrados, solo existe una definición.
Las definiciones de conjunto de datos admiten todas las transformaciones enumeradas para la <xref:azureml.dataprep.Dataflow> clase : vea http://aka.ms/azureml/howto/transformdata. Para más información sobre las definiciones de conjunto de datos, vaya a https://aka.ms/azureml/howto/versiondata.
Inicialice el objeto de definición del conjunto de datos.
Constructor
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Parámetros
| Nombre | Description |
|---|---|
|
workspace
Requerido
|
Área de trabajo en la que se registra el conjunto de datos. |
|
dataset_id
Requerido
|
Identificador del conjunto de datos. |
|
version_id
Requerido
|
Versión de definición. |
|
dataflow
Requerido
|
Objeto Dataflow. |
|
dataflow_json
Requerido
|
Json de flujo de datos. |
|
notes
Requerido
|
Información opcional sobre la definición. |
|
etag
Requerido
|
Etag. |
|
created_time
Requerido
|
Hora de creación de la definición. |
|
modified_time
Requerido
|
Hora de la última modificación de la definición. |
|
deprecated_by_dataset_id
Requerido
|
Identificador del conjunto de datos que deja de usar esta definición. |
|
deprecated_by_definition_version
Requerido
|
Versión de la definición que deja de usar esta definición. |
|
data_path
Requerido
|
Ruta de acceso de datos. |
|
dataset
Requerido
|
Objeto Dataset primario. |
Métodos
| archive |
Archivar la definición del conjunto de datos. |
| create_snapshot |
Cree una instantánea del conjunto de datos registrado. |
| deprecate |
En desuso del conjunto de datos, con un puntero al nuevo conjunto de datos. |
| reactivate |
Reactivar la definición del conjunto de datos. Funciona en definiciones de conjuntos de datos que han quedado en desuso o archivadas. |
| to_pandas_dataframe |
Cree un dataframe de Pandas ejecutando la canalización de transformación definida por esta definición de conjunto de datos. |
| to_spark_dataframe |
Cree un DataFrame de Spark que pueda ejecutar la canalización de transformación definida por este flujo de datos. |
archive
Archivar la definición del conjunto de datos.
archive()
Devoluciones
| Tipo | Description |
|---|---|
|
Ninguno. |
Comentarios
Después del archivado, cualquier intento de recuperar el conjunto de datos producirá un error. Si se archiva por accidente, use reactivate para activarlo.
create_snapshot
Cree una instantánea del conjunto de datos registrado.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parámetros
| Nombre | Description |
|---|---|
|
snapshot_name
Requerido
|
Nombre de la instantánea. Los nombres de instantánea deben ser únicos dentro de un conjunto de datos. |
|
compute_target
|
Destino de proceso para realizar la creación del perfil de instantánea. Si se omite, se usa el proceso local. Valor predeterminado: None
|
|
create_data_snapshot
|
Si es True, se creará una copia materializada de los datos. Valor predeterminado: False
|
|
target_datastore
|
Almacén de datos de destino donde se va a guardar la instantánea. Si se omite, la instantánea se creará en el almacenamiento predeterminado del área de trabajo. Valor predeterminado: None
|
Devoluciones
| Tipo | Description |
|---|---|
|
Un objeto DatasetSnapshot. |
Comentarios
Las instantáneas capturan estadísticas de resumen a un momento dado de los datos subyacentes y una copia opcional de los propios datos. Para más información sobre la creación de instantáneas, vaya a https://aka.ms/azureml/howto/createsnapshots.
deprecate
En desuso del conjunto de datos, con un puntero al nuevo conjunto de datos.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Parámetros
| Nombre | Description |
|---|---|
|
deprecate_by_dataset_id
Requerido
|
Identificador del conjunto de datos que es responsable del desuso del conjunto de datos actual. |
|
deprecated_by_definition_version
|
La versión de definición del conjunto de datos que es responsable del desuso de la definición del conjunto de datos actual. Valor predeterminado: None
|
Devoluciones
| Tipo | Description |
|---|---|
|
Ninguno. |
Comentarios
Las definiciones de conjuntos de datos en desuso registrarán advertencias cuando se consuman. Para impedir completamente que se consuma una definición de conjunto de datos, archivela.
Si una definición de conjunto de datos está en desuso por accidente, use reactivate para activarla.
reactivate
Reactivar la definición del conjunto de datos.
Funciona en definiciones de conjuntos de datos que han quedado en desuso o archivadas.
reactivate()
Devoluciones
| Tipo | Description |
|---|---|
|
Ninguno. |
to_pandas_dataframe
Cree un dataframe de Pandas ejecutando la canalización de transformación definida por esta definición de conjunto de datos.
to_pandas_dataframe()
Devoluciones
| Tipo | Description |
|---|---|
|
Un DataFrame de Pandas. |
Comentarios
Devuelve un DataFrame de Pandas totalmente materializado en la memoria.
to_spark_dataframe
Cree un DataFrame de Spark que pueda ejecutar la canalización de transformación definida por este flujo de datos.
to_spark_dataframe()
Devoluciones
| Tipo | Description |
|---|---|
|
Un dataframe de Spark. |
Comentarios
La trama de datos de Spark devuelta es solo un plan de ejecución y no contiene realmente ningún dato, ya que los dataframes de Spark se evalúan de forma diferida.