Freigeben über


Ausführen von Tests mit Multi-Turn-Unterhaltungen

Mit der Gesprächsauswertung können Sie das allgemeine Verhalten Ihres Agenten über eine längere Interaktion bewerten. Es spiegelt wider, wie echte Benutzer mit Agents interagieren, wobei jede Antwort von vorherigem Kontext innerhalb einer laufenden Unterhaltung abhängt. Mithilfe dieser Auswertungen können Sie ermitteln, ob ein Agent den Kontext verwalten kann, nach Klärungen fragen und mehrstufige Aufgaben ausführen kann.

Sie können auch einzelne Antwortauswertungen ausführen, die geeignet sind, wenn Sie Ihren Agent testen möchten, wie er bestimmte Fragen beantwortet, welche Funktionen sie aufruft, und auf den genauen Wortlaut, der in seinen Antworten verwendet wird.

Auswertungen verwenden Testsätze. Ein Testset für Unterhaltungsbewertungen besteht aus einer Gruppe von bis zu 20 Testfällen. Wenn Sie eine Agentenbewertung durchführen, wählen Sie einen Testsatz aus, und Copilot Studio führt jeden Testfall in diesem Set gegen Ihren Agenten aus.

Sie können Testfälle in einem Testsatz erstellen, indem Sie sie mithilfe einer Kalkulationstabelle importieren oder KI verwenden, um Nachrichten basierend auf dem Entwurf und den Ressourcen Ihres Agenten zu generieren. Sie können dann wählen, wie Sie die Qualität der Antworten Ihres Agenten für jeden Testfall innerhalb eines Testsets messen möchten.

Für weitere Informationen darüber, wie die Agentenbewertung funktioniert, siehe Über die Agentenbewertung.

Um zu lernen, wie man einen bestehenden Testsatz bearbeitet, siehe Die Details eines Testsatzes ändern.

Von Bedeutung

Testergebnisse sind in Copilot Studio für 89 Tage verfügbar. Um Ihre Testergebnisse länger zu speichern, exportieren Sie die Ergebnisse in eine CSV-Datei.

Erstellung eines Gesprächstestsatzes

  1. Gehe auf die Bewertungsseite deines Agenten .

Screenshot, der zeigt, wie man den Reiter

  1. Wählen Sie "Neue Auswertung" und dann "Unterhaltung" aus.

    Screenshot der Option

  2. Sie können Multi-Turn-Testfälle mithilfe einer der folgenden Methoden erstellen:

    • Schnelles Gesprächsset: Generieren Sie automatisch 10 kurze Unterhaltungen basierend auf der Beschreibung, den Anweisungen und Fähigkeiten Ihres Agenten.

    • Vollständiger Konversationssatz: Generieren Sie Unterhaltungen anhand des Wissens oder der definierten Themen Ihres Agenten. In dieser Option können Sie das Erstellen kurzer oder langer Unterhaltungen auswählen.

    • Verwenden Sie Ihren Testchat: Konvertieren Sie den neuesten Testchat in einen Testfall.

Hinweis

Unterhaltungstest-Sets unterstützen bis zu 20 Testfälle. Jeder Testfall unterstützt bis zu 12 Gesamtnachrichten, bei denen es sich um 6 Fragen und Antworten handelt.

  1. Geben Sie unter "Name" einen Namen für Den Testsatz ein.

  2. Ändern oder hinzufügen Sie die testmethoden , die Sie verwenden möchten. Für Unterhaltungstestsätze können Sie die Testmethoden Allgemeine Qualität, Schlüsselwort-Übereinstimmung, Fähigkeiten-Übereinstimmung oder Klassifizierung hinzufügen.

    • Fügen Sie eine neue Methode hinzu:
      1. Wählen Sie Testmethode hinzufügen.
      2. Wähle alle Methoden aus, mit denen du testen möchtest, und wähle dann OK. Du kannst mehrere Methoden hinzufügen.
      3. Für einige Methoden setzen Sie eine Bestehenspunktzahl und wählen dann OK. Die Bewertung für Bestehen bestimmt, welche Punktzahl zu einem Bestehen oder Nichtbestehen führt.
      4. Einige Methoden erfordern, dass erwartete Antworten oder Schlüsselwörter für jeden Ihrer Testfälle hinzugefügt werden. Weitere Informationen finden Sie unter Choose evaluation methods.
    • Wählen Sie eine bestehende Testmethode zum Bearbeiten oder Löschen aus.
    Prüfmethode Maßnahmen Testsatztyp Bewertung Configurations
    Allgemeine Qualität Wie gut sind die Antwort(en) eines Testfalls auf der Grundlage bestimmter Eigenschaften Einzelne Antwort oder Unterhaltung Bewertung von insgesamt 100 % Nichts
    Bedeutung vergleichen Wie gut die Bedeutung der Antwort des Testfalls mit der erwarteten Antwort übereinstimmt Einzelantwort Bewertung von insgesamt 100 % Bestehensgrenze, erwartete Antwort
    Fähigkeitsnutzung Gibt an, ob der Testfall alle oder beliebige der erwarteten Ressourcen verwendet hat. Einzelne Antwort Bestanden/Nicht bestanden Erwartete Fähigkeiten
    Schlüsselwort-Übereinstimmung Ob der Testfall alle oder einige der erwarteten Schlüsselbegriffe oder Phrasen verwendet hat Einzelne Antwort oder Unterhaltung Bestanden/Nicht bestanden Erwartete Schlüsselwörter oder -phrasen
    Textähnlichkeit Wie gut der Text der Antwort des Testfalls mit der erwarteten Antwort übereinstimmt Einzelantwort Bewertung von insgesamt 100 % Bestehensgrenze, erwartete Antwort
    Genaue Übereinstimmung Ob die Antwort des Testfalls genau mit der erwarteten Antwort übereinstimmt Einzelne Antwort Bestanden/Nicht bestanden Erwartete Antwort
  3. Bearbeite die Details der Testfälle. Alle Testmethoden mit Ausnahme der allgemeinen Qualität erfordern erwartete Antworten oder Schlüsselwörter. Weitere Informationen zum Bearbeiten von Testfällen finden Sie unter Ändern eines Testsatzes.

  4. Wählen Sie Benutzerprofil aus, dann wählen oder fügen Sie das Konto hinzu, das Sie für diese Testgruppe verwenden möchten, oder fahren Sie ohne Authentifizierung fort. Die Bewertung nutzt dieses Konto, um während des Tests mit Wissensquellen und Werkzeugen zu verbinden. Informationen zum Hinzufügen und Verwalten von Benutzerprofilen finden Sie unter Benutzerprofile und Verbindungen verwalten.

Hinweis

Automatisiertes Testen verwendet die Authentifizierung des ausgewählten Testkontos. Wenn Ihr Agent über Wissensquellen oder Verbindungen verfügt, die eine spezielle Authentifizierung erfordern, wählen Sie das passende Konto für Ihre Tests aus.

  1. Bearbeiten oder Erstellen weiterer Testfälle. Weitere Informationen finden Sie unter "Bearbeiten von Testfällen innerhalb eines Testsatzes".

  2. Wählen Sie Speichern , um das Testset zu aktualisieren, ohne die Testfälle auszuführen, oder Evaluieren , um das Testset sofort auszuführen.