Compartir a través de


Carga de conjuntos de datos de entrenamiento y pruebas para voz personalizada

Al probar la precisión del reconocimiento de voz o entrenar sus modelos personalizados, necesitará datos de texto y de audio. Para obtener información sobre los tipos de datos admitidos para probar o entrenar el modelo, consulte Entrenamiento y pruebas de conjuntos de datos.

Sugerencia

También puede usar el editor de transcripciones en línea para crear y perfeccionar conjuntos de datos de audio con etiquetas.

Carga de conjuntos de datos

Siga estos pasos para cargar conjuntos de datos para el entrenamiento (ajuste preciso) del modelo de voz personalizado.

Importante

Repita los pasos para cargar conjuntos de datos de test (como solo audio) que necesita más adelante cuando cree una prueba. Puede cargar varios conjuntos de datos para el entrenamiento y las pruebas.

  1. Inicie sesión en el portal de Microsoft Foundry.

  2. Seleccione Ajuste preciso en el panel izquierdo y, a continuación, seleccione Ajuste preciso del servicio DE IA.

  3. Seleccione la tarea de ajuste de voz personalizada (por nombre del modelo) que ha iniciado, tal y como se describe en el artículo sobre cómo iniciar la optimización de voz personalizada.

  4. Seleccione Administrar datos>.

    Recorte de pantalla de la página con una opción para agregar datos al proyecto de Habla personalizada.

  5. En el asistente para Agregar datos, seleccione el tipo de datos de entrenamiento que quiere agregar. En este ejemplo, seleccionamos Audio y transcripción etiquetada por usuarios. Luego, selecciona Siguiente.

    Recorte de pantalla de la página con una opción para seleccionar el tipo de datos de entrenamiento que desea agregar.

  6. En la página Cargar los datos, seleccione archivos locales, Azure Blob Storage u otras ubicaciones web compartidas. Luego, selecciona Siguiente.

    Si selecciona una ubicación remota y no usa el mecanismo de seguridad de servicios de Azure de confianza, la ubicación remota debe ser una dirección URL que se pueda recuperar con una solicitud GET anónima simple. Por ejemplo, una dirección URL de SAS o una dirección URL de acceso público. No se admiten las direcciones URL que requieren autorización adicional o esperan interacción del usuario.

    Nota:

    Si usa la dirección URL de Azure Blob, puede garantizar la máxima seguridad de los archivos del conjunto de datos mediante el mecanismo de seguridad de los servicios de Azure de confianza. Use las mismas técnicas que para la transcripción por lotes y las direcciones URL de la cuenta de almacenamiento simples para sus archivos del conjunto de datos. Consulte los detalles aquí.

  7. Escriba un nombre y una descripción para los datos. Luego, selecciona Siguiente.

  8. Revise los datos y seleccione Cargar. Se le redirige de vuelta a la página Administrar datos. El estado de los datos es Procesamiento en curso.

    Recorte de pantalla de la página que muestra el estado de los datos como Procesamiento en curso.

  9. Repita los pasos para cargar conjuntos de datos de test (como solo audio) que necesita más adelante cuando cree una prueba. Puede cargar varios conjuntos de datos para el entrenamiento y las pruebas.

  10. Repita los pasos anteriores para cargar datos de audio que use más adelante para realizar pruebas. En el Asistente para agregar datos , seleccione Audio para el tipo de datos que desea agregar.

Para cargar sus propios conjuntos de datos en Speech Studio, realice estos pasos:

  1. Inicie sesión en Speech Studio.

  2. Seleccione Voz personalizada> Nombre de su proyecto >Conjuntos de datos de Voz>Cargar datos.

  3. Seleccione la pestaña Datos de entrenamiento o Datos de prueba.

  4. Seleccione un tipo de conjunto de datos y, a continuación, seleccione Siguiente.

  5. Especifique la ubicación del conjunto de datos y, a continuación, seleccione Siguiente. Puede elegir un archivo local o especificar una ubicación remota, como la dirección URL de Azure Blob. Si selecciona una ubicación remota y no usa el mecanismo de seguridad de servicios de Azure de confianza, la ubicación remota debe ser una dirección URL que se pueda recuperar con una solicitud GET anónima simple. Por ejemplo, una dirección URL de SAS o una dirección URL de acceso público. No se admiten las direcciones URL que requieren autorización adicional o esperan interacción del usuario.

    Nota:

    Si usa la dirección URL de Azure Blob, puede garantizar la máxima seguridad de los archivos del conjunto de datos mediante el mecanismo de seguridad de los servicios de Azure de confianza. Use las mismas técnicas que para la transcripción por lotes y las direcciones URL de la cuenta de almacenamiento simples para sus archivos del conjunto de datos. Consulte los detalles aquí.

  6. Escriba el nombre y una descripción del conjunto de datos y, a continuación, seleccione Siguiente.

  7. Revise la configuración y seleccione Save and close (Guardar y cerrar).

Una vez cargado el conjunto de datos, vaya a la página Entrenar modelos personalizados para entrenar un modelo personalizado.

Antes de continuar, asegúrese de que tiene instalada y configurada la CLI de Voz .

Con la CLI de Voz y la API REST de voz en texto, a diferencia del portal de Microsoft Foundry y Speech Studio, no se elige si un conjunto de datos está para probar o entrenar en el momento de la carga. Especifique cómo se usa un conjunto de datos al entrenar un modelo o ejecutar una prueba.

Aunque no indique si el conjunto de datos es para pruebas o entrenamiento, debe especificar el tipo de conjunto de datos. El tipo de conjunto de datos se usa para decidir qué tipo de conjunto de datos se crea. En algunos casos, un tipo de conjunto de datos solo se usa para pruebas o entrenamiento, pero no debe depender de ello. Los valores de la CLI de Voz y la API kind REST corresponden a las opciones del portal de Microsoft Foundry y Speech Studio , tal y como se describe en la tabla siguiente:

CLI y tipo de API Opciones del portal
Acústico Datos de entrenamiento: transcripción de audio y etiquetada por humano
Datos de prueba: transcripción (síntesis de audio automática)
Datos de prueba: transcripción de audio y etiquetada por humano
AudioFiles Datos de prueba: audio
Idioma Datos de entrenamiento: texto sin formato
LanguageMarkdown Datos de entrenamiento: texto estructurado en formato Markdown
Pronunciación Datos de entrenamiento: pronunciación
OutputFormatting Datos de entrenamiento: formato de salida

Importante

No usará la CLI de Voz ni la API REST para cargar archivos de datos directamente. En primer lugar, almacene los archivos de conjunto de datos de entrenamiento o pruebas en una dirección URL a la que pueda acceder la CLI de Voz o la API REST. Después de cargar los archivos de datos, puede usar la CLI de Voz o la API REST para crear un conjunto de datos para pruebas de voz o entrenamiento personalizados.

Para crear un conjunto de datos y conectarlo a un proyecto existente, use el comando spx csr dataset create. Construya los parámetros de solicitud según las instrucciones siguientes:

  • Establezca la project propiedad en el identificador de un proyecto existente. Se recomienda la project propiedad para que también pueda administrar el ajuste de la voz personalizada en el portal de Microsoft Foundry. Para obtener el identificador del proyecto, consulte Obtención del identificador del proyecto para la documentación de la API REST .

  • Establezca la propiedad kind obligatoria. El posible conjunto de valores para un tipo de conjunto de datos de entrenamiento es el siguiente: Acoustic, AudioFiles, Language, LanguageMarkdown y Pronunciation.

  • Establezca la propiedad contentUrl obligatoria. Este parámetro es la ubicación del conjunto de datos. Si no usa el mecanismo de seguridad de servicios de Azure de confianza (consulte la nota siguiente), la contentUrl propiedad debe ser una dirección URL que se pueda recuperar con una solicitud GET anónima simple. Por ejemplo, una dirección URL de SAS o una dirección URL de acceso público. Las direcciones URL que requieren autorización adicional o que esperan a la interacción del usuario no son compatibles.

    Nota:

    Si usa la dirección URL de Azure Blob, puede garantizar la máxima seguridad de los archivos del conjunto de datos mediante el mecanismo de seguridad de los servicios de Azure de confianza. Use las mismas técnicas que para la transcripción por lotes y las direcciones URL de la cuenta de almacenamiento simples para sus archivos del conjunto de datos. Consulte los detalles aquí.

  • Establezca la propiedad language obligatoria. La configuración regional del conjunto de datos debe coincidir con la configuración regional del proyecto. Esta configuración regional no se podrá modificar más adelante. La propiedad language de la CLI de Voz corresponde a la propiedad locale en la solicitud y respuesta JSON.

  • Establezca la propiedad name obligatoria. Este parámetro es el nombre que se muestra en el portal de Microsoft Foundry. La propiedad name de la CLI de Voz corresponde a la propiedad displayName en la solicitud y respuesta JSON.

Este es un ejemplo de comando de la CLI de Voz, que crea un conjunto de datos y lo conecta a un proyecto existente:

spx csr dataset create --api-version v3.2 --kind "Acoustic" --name "My Acoustic Dataset" --description "My Acoustic Dataset Description" --project YourProjectId --content YourContentUrl --language "en-US"

Importante

Debe establecer --api-version v3.2. La CLI de Voz usa la API REST, pero aún no admite versiones posteriores a v3.2.

Debe recibir un cuerpo de respuesta en el formato siguiente:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/aaaabbbb-0000-cccc-1111-dddd2222eeee",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/bbbbcccc-1111-dddd-2222-eeee3333ffff"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

La propiedad self de nivel superior del cuerpo de la respuesta es el URI del conjunto de datos. Use este URI para obtener detalles sobre el proyecto y los archivos del conjunto de datos. Use también este URI para actualizar o eliminar un conjunto de datos.

Para obtener ayuda de la CLI de Voz con conjuntos de datos, ejecute el siguiente comando:

spx help csr dataset

Con la CLI de Voz y la API REST de voz en texto, a diferencia del portal de Microsoft Foundry y Speech Studio, no se elige si un conjunto de datos está para probar o entrenar en el momento de la carga. Especifique cómo se usa un conjunto de datos al entrenar un modelo o ejecutar una prueba.

Aunque no indique si el conjunto de datos es para pruebas o entrenamiento, debe especificar el tipo de conjunto de datos. El tipo de conjunto de datos se usa para decidir qué tipo de conjunto de datos se crea. En algunos casos, un tipo de conjunto de datos solo se usa para pruebas o entrenamiento, pero no debe depender de ello. Los valores de la CLI de Voz y la API kind REST corresponden a las opciones del portal de Microsoft Foundry y Speech Studio , tal y como se describe en la tabla siguiente:

CLI y tipo de API Opciones del portal
Acústico Datos de entrenamiento: transcripción de audio y etiquetada por humano
Datos de prueba: transcripción (síntesis de audio automática)
Datos de prueba: transcripción de audio y etiquetada por humano
AudioFiles Datos de prueba: audio
Idioma Datos de entrenamiento: texto sin formato
LanguageMarkdown Datos de entrenamiento: texto estructurado en formato Markdown
Pronunciación Datos de entrenamiento: pronunciación
OutputFormatting Datos de entrenamiento: formato de salida

Importante

No usará la CLI de Voz ni la API REST para cargar archivos de datos directamente. En primer lugar, almacene los archivos de conjunto de datos de entrenamiento o pruebas en una dirección URL a la que pueda acceder la CLI de Voz o la API REST. Después de cargar los archivos de datos, puede usar la CLI de Voz o la API REST para crear un conjunto de datos para pruebas de voz o entrenamiento personalizados.

Para crear un conjunto de datos y conectarlo a un proyecto existente, use la operación Datasets_Create de la API de REST de conversión de voz en texto. Construya el cuerpo de la solicitud según las instrucciones siguientes:

  • Establezca la project propiedad en el identificador de un proyecto existente. Se recomienda la project propiedad para que también pueda administrar el ajuste de la voz personalizada en el portal de Microsoft Foundry. Para obtener el identificador del proyecto, consulte Obtención del identificador del proyecto para la documentación de la API REST .

  • Establezca la propiedad kind obligatoria. El posible conjunto de valores para un tipo de conjunto de datos de entrenamiento es el siguiente: Acoustic, AudioFiles, Language, LanguageMarkdown y Pronunciation.

  • Establezca la propiedad contentUrl obligatoria. Esta propiedad es la ubicación del conjunto de datos. Si no usa el mecanismo de seguridad de servicios de Azure de confianza (consulte la nota siguiente), la contentUrl propiedad debe ser una dirección URL que se pueda recuperar con una solicitud GET anónima simple. Por ejemplo, una dirección URL de SAS o una dirección URL de acceso público. Las direcciones URL que requieren autorización adicional o que esperan a la interacción del usuario no son compatibles.

    Nota:

    Si usa la dirección URL de Azure Blob, puede garantizar la máxima seguridad de los archivos del conjunto de datos mediante el mecanismo de seguridad de los servicios de Azure de confianza. Use las mismas técnicas que para la transcripción por lotes y las direcciones URL de la cuenta de almacenamiento simples para sus archivos del conjunto de datos. Consulte los detalles aquí.

  • Establezca la propiedad locale obligatoria. La configuración regional del conjunto de datos debe coincidir con la configuración regional del proyecto. Esta configuración regional no se podrá modificar más adelante.

  • Establezca la propiedad displayName obligatoria. Esta propiedad es el nombre que se muestra en el portal de Microsoft Foundry.

Realice una solicitud HTTP POST con el URI, como se muestra en el ejemplo siguiente. Reemplace YourSpeechResoureKey por la clave de recurso de Voz, YourServiceRegion por la región del recurso de Voz, y establezca las propiedades del cuerpo de la solicitud como se ha descrito anteriormente.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSpeechResoureKey" -H "Content-Type: application/json" -d '{
  "kind": "Acoustic",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/bbbbcccc-1111-dddd-2222-eeee3333ffff"
  },
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "locale": "en-US",
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/datasets"

Debe recibir un cuerpo de respuesta en el formato siguiente:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/aaaabbbb-0000-cccc-1111-dddd2222eeee",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/bbbbcccc-1111-dddd-2222-eeee3333ffff"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

La propiedad self de nivel superior del cuerpo de la respuesta es el URI del conjunto de datos. Use este URI para obtener detalles sobre el proyecto y los archivos del conjunto de datos. Use también este URI para actualizar o eliminar el conjunto de datos.

Importante

No es necesario conectar un conjunto de datos a un proyecto de voz personalizada para entrenar y probar un modelo personalizado mediante la API de REST o la CLI de Voz. Pero si el conjunto de datos no está conectado a ningún proyecto, no puede seleccionarlo para el entrenamiento o las pruebas en el portal de Microsoft Foundry.

Pasos siguientes