Delen via


Anomaliedetectie

Belangrijk

Deze functie bevindt zich in openbare preview-versie.

Op deze pagina wordt beschreven wat anomaliedetectie is, wat deze bewaakt en hoe u deze kunt gebruiken.

Belangrijk

Anomaliedetectie maakt gebruik van standaardopslag voor het opslaan van scanresultaten in de system.data_quality_monitoring.table_results systeemtabel. U wordt niet gefactureerd voor deze opslag.

Wat is anomaliedetectie?

Met anomaliedetectie kunt u de gegevenskwaliteit in alle tabellen in een schema bewaken. Door historische patronen te analyseren, evalueert Azure Databricks automatisch de volledigheid en frisheid van elke tabel. Resultaten zijn beschikbaar in Catalog Explorer.

Requirements

  • Een werkruimte waarbij Unity Catalog is ingeschakeld.
  • Serverloze berekeningen moeten beschikbaar zijn in uw werkruimte (standaard ingeschakeld in werkruimten met Unity Catalog).
  • Als u anomaliedetectie in een schema wilt inschakelen, moet u de bevoegdheden BEHEREN SCHEMA of BEHEREN CATALOG voor het catalogusschema hebben.
  • Als u de status van de gezondheidsindicatoren van tabellen wilt weergeven, hebt u SELECT- of BROWSE-bevoegdheden nodig.

Hoe werkt anomaliedetectie?

Azure Databricks maakt een achtergrondtaak waarmee tabellen worden bewaakt voor freshness en volledigheid.

Nieuwheid verwijst naar hoe onlangs een tabel is bijgewerkt. Bewaking van gegevenskwaliteit analyseert de geschiedenis van doorvoeringen in een tabel en bouwt een model per tabel om de tijd van de volgende doorvoering te voorspellen. Als een commit ongebruikelijk laat is, wordt de tabel gemarkeerd als verouderd.

Volledigheid verwijst naar het aantal rijen dat verwacht wordt in de afgelopen 24 uur naar de tabel te zijn geschreven. Bewaking van gegevenskwaliteit analyseert het historische aantal rijen en voorspelt op basis van deze gegevens een bereik van het verwachte aantal rijen. Als het aantal rijen dat de afgelopen 24 uur is doorgevoerd, kleiner is dan de ondergrens van dit bereik, wordt een tabel gemarkeerd als onvolledig.

Azure Databricks maakt gebruik van intelligente scans om frequenties voor tabelscans te automatiseren. Intelligent scannen geeft prioriteit aan tabellen met een hoge impact, zoals bepaald door populariteit en downstreamgebruik, en vermindert frequentie voor minder kritieke tabellen. Als u tabellen handmatig wilt uitsluiten, gebruikt u de Monitor-API maken of Een monitor-API bijwerken en geeft u de uitgesloten tabellen in de excluded_table_full_names parameter op. Zie de API-documentatie voor meer informatie.

Anomaliedetectie wijzigt geen tabellen die worden bewaakt en voegt ook geen overhead toe aan taken die deze tabellen vullen.

Opmerking

Nieuwheid van gebeurtenissen, die is gebaseerd op gebeurtenistijdkolommen en opnamelatentie, was alleen beschikbaar voor gebruikers van de bètaversie van de bewaking van gegevenskwaliteit. In de huidige versie wordt de nieuwheid van gebeurtenissen niet ondersteund.

Percentage null voor volledigheid

Belangrijk

Deze functie bevindt zich in de bètaversie. Werkruimtebeheerders kunnen de toegang tot deze functie beheren vanaf de pagina Previews . Zie Azure Databricks-previews beheren.

Percentage null voegt aanvullende kwaliteitsdetails toe aan volledigheid. Percentage nullwaarden is het percentage van de rijen dat in de afgelopen 24 uur naar de tabel is geschreven en waarvan wordt verwacht dat het null-waarden heeft voor een bepaalde kolom. Bewaking van gegevenskwaliteit analyseert de historische trend voor elke kolom en voorspelt op basis van deze gegevens een bereik. Als het percentage null voor een kolom gedurende de afgelopen 24 uur hoger is dan de bovengrens van dit bereik, wordt een tabel gemarkeerd als onvolledig.

Anomaliedetectie inschakelen in een schema

Als u anomaliedetectie in een schema wilt inschakelen, gaat u naar het schema in Unity Catalog.

  1. Klik op de schemapagina op het tabblad Details .

    Tabblad Details voor de schemapagina in Catalog Explorer.

  2. Klik op Inschakelen. Zorg ervoor dat anomaliedetectie is ingeschakeld in het dialoogvenster Bewaking van gegevenskwaliteit en klik vervolgens op Opslaan.

  3. Er wordt een scan gestart. Databricks scant elke tabel automatisch met dezelfde frequentie als waarop deze wordt bijgewerkt en biedt daarbij up-to-datuminzichten zonder dat er handmatige configuratie voor elke tabel nodig is. Voor schema's die vóór 24 september 2025 zijn ingeschakeld, heeft Databricks de monitor uitgevoerd op historische gegevens ('backtesting') voor de eerste scan om de kwaliteit van uw tabellen te controleren alsof bewaking van gegevenskwaliteit twee weken geleden in uw schema is ingeschakeld.

  4. Nadat de scan is voltooid, kunt u de resultaten van anomaliedetectie voor uw tabellen op de volgende manieren bekijken:

Anomaliedetectie uitschakelen

Anomaliedetectie uitschakelen:

  1. Klik op het potloodpictogram.

    Potloodpictogram in het veld Geavanceerd van het tabblad Details.

  2. Klik in het dialoogvenster Bewaking van gegevenskwaliteit op de wisselknop.

    Belangrijk

    Wanneer u anomaliedetectie uitschakelt, worden de anomaliedetectietaak en alle anomaliedetectietabellen en -informatie verwijderd. Deze actie kan niet ongedaan worden gemaakt.

    Schakeloptie in het dialoogvenster Bewaking van gegevenskwaliteit.

  3. Klik op Opslaan.

Gezondheidsindicatoren

Nadat u anomaliedetectie voor een schema hebt ingeschakeld, worden statusindicatoren weergegeven op de overzichtspagina's van het schema en de tabel in Catalog Explorer. De statusindicator toont een samenvatting van de tabelstatus voor gegevensgebruikers en zakelijke gebruikers zonder dat ze naar de gebruikersinterface van gegevenskwaliteit hoeven te navigeren. Gebruikers hebben de SELECT machtiging of BLADEREN nodig om de status van de statusindicator weer te geven.

Statusindicatoren voor tabellen in een schema.

In de volgende tabel wordt elke statusindicator beschreven:

Status Beschrijving
Healthy Alle anomaliedetectiecontroles zijn geslaagd in de meest recente scan.
Ongezond Een of meer controles hebben een anomalie gedetecteerd, zoals een nieuwheids- of volledigheidsprobleem.
Opleiding Anomaliedetectie bouwt een basislijnmodel op basis van historische gegevens. Nieuwe bewaakte tabellen geven deze status weer totdat het model voldoende gegevens heeft om de kwaliteit te evalueren.
Fout Anomaliedetectie heeft een fout aangetroffen tijdens het bewaken van deze tabel.
Uitgesloten De tabel wordt expliciet uitgesloten van anomaliedetectie.
Niet ingeschakeld Anomaliedetectie is niet ingeschakeld in het schema dat deze tabel bevat.

Opmerking

Slim scannen kan de populatie van statusindicatoren voor sommige tabellen met maximaal twee weken vertragen als de tabel tijdens de eerste scan is overgeslagen. De statusindicator wordt ingevuld bij de volgende geplande herscan.

Resultaten van bewaking van gegevenskwaliteit weergeven in de gebruikersinterface

Belangrijk

Op 7 oktober 2025 heeft Databricks een nieuwe versie van de gebruikersinterface voor bewaking van gegevenskwaliteit uitgebracht. Schema's die zijn ingeschakeld voor bewaking van gegevenskwaliteit op of na die datum, maken automatisch gebruik van deze nieuwe gebruikersinterface. In deze sectie wordt deze nieuwste versie van de gebruikersinterface beschreven.

Zie het dashboard voor gegevenskwaliteit (verouderd) voor informatie over de verouderde gebruikersinterface.

Databricks raadt u aan de nieuwe versie in te schakelen voor al uw bestaande schema's.

Als u de nieuwe versie wilt inschakelen, klikt u op de wisselknop Bewaking van gegevenskwaliteit om de functie uit te schakelen en klikt u nogmaals om deze weer in te schakelen.

Nadat u bewaking van gegevenskwaliteit in een schema hebt ingeschakeld, kunt u de resultatenpagina openen door op Resultaten weergeven te klikken. U kunt ook toegang krijgen tot resultaten van alle schema's waarvoor bewaking is ingeschakeld in Catalog Explorer.

De resultaten-UI bevat vervolgkeuzelijsten voor catalogi en schema's. Wanneer u een catalogus selecteert, wordt de vervolgkeuzelijst schema's gevuld met schema's in die catalogus waarvoor bewaking van gegevenskwaliteit is ingeschakeld.

  • Als u MANAGE of SELECT bevoegdheden voor de catalogus hebt, kunt u incidenten weergeven op catalogusniveau. Als u alle incidenten in een catalogus wilt weergeven, selecteert u Alle schema's in de vervolgkeuzelijst Schema .

    Alle schema's selecteren in de vervolgkeuzelijst Schema.

  • Als u incidenten voor een specifiek schema wilt weergeven, moet u ook BEHEREN of SELECT bevoegdheden voor dat schema hebben. Als u een schema selecteert, worden incidenten voor alleen dat schema weergegeven.

Op de resultatenpagina ziet u een overzichtssectie bovenaan, waarin de algehele gegevenskwaliteit voor het geselecteerde bereik wordt weergegeven, inclusief het percentage gezonde tabellen en het percentage schema's/tabellen dat momenteel wordt bewaakt. Onder deze sectie vindt u een tabel met incidenten in alle bewaakte tabellen in het geselecteerde bereik. Gebruik de knoppen om de tabellen Ongezond, Gezond of Fout weer te geven.

De gebruikersinterface voor incidenten met samenvatting, belangrijke incidenten en alle tabbladen incidenten.

In de volgende tabel worden de kolommen beschreven, die enigszins afwijken, afhankelijk van of u Beschadigd, In orde of Fout selecteert.

Kolom Beschrijving
Status Healthy, Unhealthy, of Training.
Eerste gedetecteerd Toen het eerste incident werd gedetecteerd. Wordt alleen weergegeven op het tabblad Ongezond.
Laatst gescand Toen de tabel voor het laatst werd gescand. Wordt alleen weergegeven op het tabblad Gezond.
Reden Of de tabel ongezond is vanwege de versheid of volledigheid. Wordt alleen weergegeven op het tabblad Ongezond.
Oorzaak Informatie over upstream-taken die bijdragen aan het probleem (zie De geregistreerde resultaten van anomaliedetectie bekijken voor meer informatie). Wordt alleen weergegeven op het tabblad Ongezond.
Impact Een kwalitatieve meting van downstreamimpact (hoog, gemiddeld of laag), op basis van het aantal betrokken downstreamtabellen en query's.
Scanfrequentie Hoe vaak de tabel in de afgelopen week is gescand.
Results Een koppeling naar de pagina met tabelkwaliteit waarin u historische trends en visualisaties kunt bekijken waarin wordt uitgelegd waarom een anomalie is gedetecteerd.
Foutstatus Foutmelding. Wordt alleen weergegeven op het tabblad Fout .
Details Details over het foutbericht. Wordt alleen weergegeven op het tabblad Fout .

Resultaten op metastoreniveau weergeven

Deze sectie bevat een sjabloon die u in uw werkruimte kunt importeren. Met deze sjabloon maakt u een dashboard waarmee u alle kwaliteitsresultaten in de metastore kunt bekijken.

Als u deze sjabloon wilt gebruiken, moet u toegang hebben tot de system.data_quality_monitoring.table_results tabel. Standaard hebben alleen accountbeheerders toegang tot deze tabel. Ze kunnen zo nodig toegang verlenen aan anderen.

De sjabloon gebruiken

Volg deze stappen:

  1. Download het sjabloonbestand: metastore-quality-dashboard.lvdash.json.
  2. Klik in de zijbalk van de werkruimte op Dashboards-pictogramDashboards.
  3. Selecteer in de rechterbovenhoek het dashboard importeren uit bestand in de vervolgkeuzelijst Dashboard maken .
  4. Klik in het dialoogvenster op Bestand kiezen, navigeer naar het sjabloonbestand en klik op Dashboard importeren.

Het bestand wordt geïmporteerd en het dashboard wordt weergegeven.

Voorbeeld van dashboard voor gegevenskwaliteit op metastore-niveau.

Details van tabelkwaliteit

Met de gebruikersinterface voor tabelkwaliteitsdetails kunt u dieper ingaan op trends en begrijpen waarom afwijkingen zijn gedetecteerd voor specifieke tabellen in uw schema. U kunt deze weergave op verschillende manieren openen:

  • Klik in de lijst met incidenten op de beoordelingskoppeling vanuit de resultateninterface (nieuwe gebruikerservaring).
  • Klik in het bewakingsdashboard (verouderd Lakeview-dashboard) op de tabelnaam op het tabblad Kwaliteitsoverzicht.
  • Bekijk vanuit de UC Table Viewer het tabblad Kwaliteit op de tabelpagina.

Met alle opties gaat u naar dezelfde weergave Tabelkwaliteitsdetails voor de geselecteerde tabel.

Op basis van een tabel toont de gebruikersinterface samenvattingen van elke kwaliteitscontrole voor de tabel, met grafieken van voorspelde en waargenomen waarden bij elke evaluatietijdstempel. De grafieken tekenen resultaten van de afgelopen 1 week met gegevens.

Gebruikersinterface voor details over tabelkwaliteit voor anomaliedetectie.

Als de kwaliteitscontroles in de tabel zijn mislukt, worden in de gebruikersinterface ook upstream-taken weergegeven die zijn geïdentificeerd als de hoofdoorzaak.

Hoofdoorzaaktabel tabel met tabelkwaliteitsdetails.

Waarschuwingen instellen

Zie Waarschuwingen voor anomaliedetectie als u een Databricks SQL-waarschuwing wilt configureren in de uitvoerresultatentabel.

Beperkingen

  • Anomaliedetectie biedt geen ondersteuning voor weergaven of vreemde tabellen.
  • Bij de bepaling van volledigheid wordt geen rekening gehouden met metrische gegevens, zoals het deel van null-waarden, nulwaarden of NaN.

Verouderde anomaliedetectie

De volgende secties hebben betrekking op twee verouderde functies: het dashboard voor gegevenskwaliteit en de taakconfiguratie voor anomaliedetectie. De huidige versie van anomaliedetectie bevat deze functies niet. Het dashboard is vervangen door de gebruikersinterface voor bewaking van gegevenskwaliteit.

Dashboard voor gegevenskwaliteit (verouderd)

Dashboard voor gegevenskwaliteit (verouderd)

Opmerking

Het dashboard voor bewaking van gegevenskwaliteit was alleen beschikbaar voor verouderde gebruikers. Gebruik in de huidige versie de resultaten van de gegevenskwaliteitsbewaking bekijken in de gebruikersinterface.

Met de eerste uitvoering van de gegevenskwaliteitsmonitor wordt een dashboard gemaakt om resultaten en trends samen te vatten die zijn afgeleid van de logboekregistratietabel. Het dashboard wordt automatisch gevuld met inzichten voor het gescande schema. Er wordt één dashboard per werkruimte gemaakt op dit pad: /Shared/Databricks Quality Monitoring/Data Quality Monitoring.

Kwaliteitsoverzicht

Op het tabblad Kwaliteitsoverzicht ziet u een overzicht van de meest recente kwaliteitsstatus van tabellen in uw schema op basis van de meest recente evaluatie.

Om aan de slag te gaan, moet u de logboekregistratietabel invoeren voor het schema dat u wilt analyseren om het dashboard te vullen.

In het bovenste gedeelte van het dashboard ziet u een overzicht van de resultaten van de scan.

Overzicht van schema voor gegevenskwaliteitscontrole op het tabblad Overzicht van kwaliteit van het dashboard.

Onder de samenvatting ziet u een tabel met kwaliteitsincidenten op basis van impact. Eventuele geïdentificeerde hoofdoorzaken worden weergegeven in de root_cause_analysis kolom.

Kwaliteitsincidenten op impact op het tabblad Kwaliteitsoverzicht van het dashboard.

Onder de tabel kwaliteitsincidenten ziet u een tabel met geïdentificeerde statische tabellen die gedurende lange tijd niet zijn bijgewerkt.

Parameters instellen voor de evaluatie van versheid en volledigheid (verouderd)

Parameters instellen voor de beoordeling van versheid en compleetheid (verouderd)

Opmerking

Vanaf 21 juli 2025 wordt de configuratie van de taakparameters niet ondersteund voor nieuwe klanten. Als u de taakinstellingen wilt configureren, neemt u contact op met Databricks.

Als u de parameters wilt bewerken waarmee de taak wordt beheerd, zoals hoe vaak de taak wordt uitgevoerd of de naam van de vastgelegde resultatentabel, moet u de taakparameters bewerken op het tabblad Taken van de taakpagina.

Takenpagina met anomaliedetectietaak.

In de volgende secties worden specifieke instellingen beschreven. Zie Taakparameters configureren voor meer informatie over het instellen van taakparameters.

Schema en meldingen (verouderd)

Als u de planning voor de taak wilt aanpassen of meldingen wilt instellen, gebruikt u de instellingen voor planningen en triggers op de pagina Taken. Zie Taken automatiseren met planningen en triggers.

Naam van logboekregistratietabel (verouderd)

Als u de naam van de logboekregistratietabel wilt wijzigen of de tabel in een ander schema wilt opslaan, bewerkt u de taaktaakparameter logging_table_name en geeft u de gewenste naam op. Als u de logboekregistratietabel in een ander schema wilt opslaan, geeft u de volledige naam van drie niveaus op.

Pas freshness- en completeness-evaluaties aan (verouderd)

Alle parameters in deze sectie zijn optioneel. Anomaliedetectie bepaalt standaard drempelwaarden op basis van een analyse van de geschiedenis van de tabel.

Deze parameters zijn velden in de taakparameter metric_configs. De indeling is metric_configs een JSON-tekenreeks met de volgende standaardwaarden:

[
  {
    "disable_check": false,
    "tables_to_skip": null,
    "tables_to_scan": null,
    "table_threshold_overrides": null,
    "table_latency_threshold_overrides": null,
    "static_table_threshold_override": null,
    "event_timestamp_col_names": null,
    "metric_type": "FreshnessConfig"
  },
  {
    "disable_check": true,
    "tables_to_skip": null,
    "tables_to_scan": null,
    "table_threshold_overrides": null,
    "metric_type": "CompletenessConfig"
  }
]

De volgende parameters kunnen worden gebruikt voor zowel freshness- als completeness-evaluaties.

Veldnaam Beschrijving Voorbeeld
tables_to_scan Alleen de opgegeven tabellen worden gescand. ["table_to_scan", "another_table_to_scan"]
tables_to_skip De opgegeven tabellen worden overgeslagen tijdens de scan. ["table_to_skip"]
disable_check Scan wordt niet uitgevoerd. Gebruik deze parameter als u alleen de freshness scan of alleen de completeness scan wilt uitschakelen. true, false

De volgende parameters zijn alleen van toepassing op de freshness evaluatie:

Veldnaam Beschrijving Voorbeeld
event_timestamp_col_names Lijst van tabellen met tijdstempelkolommen die uw schema mogelijk bevat. Als een tabel een van deze kolommen heeft, wordt deze gemarkeerd Unhealthy als de maximumwaarde van deze kolom wordt overschreden. Het gebruik van deze parameter kan de evaluatietijd en -kosten verhogen. ["timestamp", "date"]
table_threshold_overrides Een woordenlijst die bestaat uit tabelnamen en drempelwaarden (in seconden) die het maximuminterval opgeven sinds de laatste tabelupdate voordat u een tabel markeert als Unhealthy. {"table_0": 86400}
table_latency_threshold_overrides Een woordenlijst die bestaat uit tabelnamen en latentiedrempels (in seconden) die het maximuminterval opgeven sinds het laatste tijdstempel in de tabel voordat u een tabel markeert als Unhealthy. {"table_1": 3600}
static_table_threshold_override De hoeveelheid tijd (in seconden) voordat een tabel wordt beschouwd als een statische tabel (een tabel die niet meer wordt bijgewerkt). 2592000

De volgende parameter is alleen van toepassing op de completeness evaluatie:

Veldnaam Beschrijving Voorbeeld
table_threshold_overrides Een woordenlijst die bestaat uit tabelnamen en drempelwaarden voor rijvolumes (opgegeven als gehele getallen). Als het aantal rijen dat in de afgelopen 24 uur aan een tabel is toegevoegd, kleiner is dan de opgegeven drempelwaarde, wordt de tabel gemarkeerd Unhealthy. {"table_0": 1000}