Partilhar via


Conteúdo do modelo de mineração de dados para modelos de agrupamento de sequência

Aplica-se a: SQL Server 2019 e anteriores Analysis Services Azure Analysis Services Fabric/Power BI Premium

Importante

A mineração de dados foi preterida no SQL Server 2017 Analysis Services e agora descontinuada no SQL Server 2022 Analysis Services. A documentação não é atualizada para recursos preteridos e descontinuados. Para saber mais, consulte Compatibilidade com versões anteriores do Analysis Services.

Este tópico descreve conteúdos de modelos de mineração específicos para modelos que utilizam o algoritmo Microsoft Sequence Clustering. Para uma explicação da terminologia geral e estatística relacionada com o conteúdo dos modelos de mineração que se aplica a todos os tipos de modelos, consulte Conteúdo do Modelo de Mineração (Serviços de Análise - Mineração de Dados).

Compreensão da Estrutura de um Modelo de Agrupamento de Sequências

Um modelo de agrupamento de sequências tem um único nó pai (NODE_TYPE = 1) que representa o modelo e os seus metadados. O nó pai, que está rotulado como (Todos), tem um nó de sequência associado (NODE_TYPE = 13) que lista todas as transições detetadas nos dados de treino.

Estrutura do modelo de agrupamento de sequências

O algoritmo também cria vários clusters, baseados nas transições encontradas nos dados e em quaisquer outros atributos de entrada incluídos na criação do modelo, como a demografia dos clientes, entre outros. Cada cluster (NODE_TYPE = 5) contém o seu próprio nó de sequência (NODE_TYPE = 13) que lista apenas as transições usadas na geração desse cluster específico. A partir do nó de sequência, pode explorar mais detalhadamente os detalhes das transições individuais de estado (NODE_TYPE = 14).

Para uma explicação das transições de sequência e estado, com exemplos, veja Microsoft Sequence Clustering Algorithm.

Conteúdo do Modelo para um Modelo de Agrupamento de Sequências

Esta secção fornece informações adicionais sobre colunas no conteúdo do modelo de mineração que têm relevância particular para agrupamento de sequências.

CATÁLOGO_DE_MODELOS
Nome da base de dados onde o modelo está armazenado.

MODEL_NAME
Nome do modelo.

ATTRIBUTE_NAME
Sempre em branco.

NODE_NAME
O nome do nó. Atualmente tem o mesmo valor que NODE_UNIQUE_NAME.

NODE_UNIQUE_NAME
O nome exclusivo do nó.

NODE_TYPE
Um modelo de agrupamento de sequências produz os seguintes tipos de nós:

ID de Tipo de Nó Description
1 (Modelo) Nó raiz do modelo
5 (Cluster) Contém uma contagem de transições no cluster, uma lista dos atributos e estatísticas que descrevem os valores no cluster.
13 (Sequência) Contém uma lista de transições incluídas no cluster.
14 (Transição) Descreve uma sequência de eventos como uma tabela em que a primeira linha contém o estado inicial, e todas as outras linhas contêm estados sucessivos, juntamente com estatísticas de suporte e probabilidade.

NODE_GUID
Vazio.

NODE_CAPTION
Um rótulo ou uma legenda associado ao nó para fins de visualização.

Podes renomear as legendas do cluster enquanto usas o modelo; no entanto, o novo nome não se mantém se fechar o modelo.

CARDINALIDADE_FILHOS
Uma estimativa do número de filhos que o nó tem.

Raiz do modelo O valor de cardinalidade é igual ao número de clusters mais um. Para mais informações, veja Cardinalidade.

Nós de cluster A cardinalidade é sempre igual a 1, porque cada cluster tem um único nó secundário, contendo a lista de sequências no cluster.

Nós de sequência Cardinalidade indica o número de transições incluídas nesse cluster. Por exemplo, a cardinalidade do nó de sequência para a raiz do modelo indica-lhe quantas transições foram encontradas em todo o modelo.

PARENT_UNIQUE_NAME
O nome único do progenitor do nó.

NULL é devolvido para quaisquer nós ao nível de raiz.

NODE_DESCRIPTION
O mesmo que a legenda do nó.

NODE_RULE
Sempre em branco.

MARGINAL_RULE
Sempre em branco.

NODE_PROBABILITY
Raiz do modelo Sempre 0.

Nós de cluster A probabilidade ajustada do aglomerado no modelo. As probabilidades ajustadas não somam 1, porque o método de agrupamento usado na agrupação de sequências permite a pertença parcial a múltiplos clusters.

Nós de sequência Sempre 0.

Nós de transição Sempre 0.

PROBABILIDADE_MARGINAL
Raiz do modelo Sempre 0.

Nós de cluster É o mesmo valor de NODE_PROBABILITY.

Nós de sequência Sempre 0.

Nós de transição: Sempre 0.

NODE_DISTRIBUTION
Uma tabela que contém probabilidades e outras informações. Para mais informações, consulte NODE_DISTRIBUTION Tabela.

NODE_SUPPORT
O número de transições que dão suporte a este nó. Portanto, se existirem 30 exemplos da sequência "Produto A seguido pelo Produto B" nos dados de treino, o suporte total é 30.

Raiz do modelo Número total de transições no modelo.

Nós de cluster Suporte bruto para o cluster, ou seja, o número de casos de treino que contribuem para este cluster.

Nós de sequência Sempre 0.

Nós de transição Percentagem de casos no agrupamento que correspondem a uma transição específica. Pode ser 0, ou pode ter um valor positivo. Calculado tomando o suporte bruto para o nó do cluster e multiplicando pela probabilidade do cluster.

A partir deste valor, pode perceber quantos casos de formação contribuíram para a transição.

MSOLAP_MODEL_COLUMN
Não aplicável.

MSOLAP_NODE_SCORE
Não aplicável.

MSOLAP_NODE_SHORT_CAPTION
Tal como NODE_DESCRIPTION.

Compreender Sequências, Estados e Transições

Um modelo de agrupamento de sequências tem uma estrutura única que combina dois tipos de objetos com tipos de informação muito diferentes: o primeiro são os clusters, e o segundo são as transições de estado.

Os clusters criados por agrupamento de sequências são semelhantes aos clusters criados pelo algoritmo Microsoft Clustering. Cada agrupamento tem um perfil e características. No entanto, no agrupamento de sequências, cada cluster contém adicionalmente um único nó filho que lista as sequências desse cluster. Cada nó de sequência contém múltiplos nós filhos que descrevem as transições de estado em detalhe, com probabilidades.

Quase sempre há mais sequências no modelo do que se conseguem encontrar em qualquer caso, porque as sequências podem ser encadeadas. O Microsoft Analysis Services armazena ponteiros de um estado para o outro para que possas contar o número de vezes que cada transição acontece. Também pode encontrar informações sobre quantas vezes a sequência ocorreu e medir a sua probabilidade de ocorrer em comparação com todo o conjunto de estados observados.

A tabela seguinte resume como a informação é armazenada no modelo e como os nós estão relacionados.

Node Tem nó filho Tabela NODE_DISTRIBUTION
Raiz do modelo Múltiplos nós de cluster

Nó com sequências para todo o modelo
Lista todos os produtos no modelo, com suporte e probabilidade.

Como o método de agrupamento permite a pertença parcial a múltiplos clusters, o suporte e a probabilidade podem ter valores fracionários. Ou seja, em vez de contar um único caso uma vez, cada caso pode potencialmente pertencer a vários clusters. Assim, quando a pertença final ao agrupamento é determinada, o valor é ajustado pela probabilidade desse agrupamento.
Nó de sequência para modelo Múltiplos nós de transição Lista todos os produtos no modelo, com suporte e probabilidade.

Como o número de sequências é conhecido para o modelo, a este nível, os cálculos de suporte e probabilidade são diretos:



Suporte = número de casos

Probabilidade = probabilidade bruta de cada sequência no modelo. Todas as probabilidades devem somar 1.
Nós individuais do cluster Nó com sequências exclusivamente para aquele cluster Lista todos os produtos num cluster, mas fornece valores de suporte e probabilidade apenas para produtos característicos do cluster.

O suporte representa o valor de suporte ajustado para cada caso neste cluster. Os valores de probabilidade são a probabilidade ajustada.
Nós de sequência para clusters individuais Múltiplos nós com transições para sequências apenas nesse cluster Exatamente a mesma informação que nos nós individuais do cluster.
Transições Sem filhos Lista transições para o estado inicial relacionado.

O suporte é um valor de suporte ajustado, indicando os casos que participam em cada transição. A probabilidade é a probabilidade ajustada, representada como uma percentagem.

Tabela NODE_DISTRIBUTION

A tabela NODE_DISTRIBUTION fornece probabilidades detalhadas e informações de apoio para as transições e sequências de um cluster específico.

Uma linha é sempre adicionada à tabela de transição para representar possíveis valores em falta . Para informações sobre o que significa o valor em falta e como afeta os cálculos, veja Valores em falta (Serviços de Análise - Mineração de Dados).

Os cálculos de suporte e probabilidade diferem consoante se o cálculo se aplica aos casos de treino ou ao modelo final. Isto deve-se ao facto de o método de clustering padrão, Expectation Maximization (EM), assumir que qualquer caso pode pertencer a mais do que um cluster. Ao calcular o suporte para os casos no modelo, é possível usar contagens brutas e probabilidades brutas. No entanto, as probabilidades para qualquer sequência particular num agrupamento devem ser ponderadas pela soma de todas as possíveis combinações de sequência e agrupamento.

Cardinalidade

Num modelo de clustering, a cardinalidade do nó pai geralmente indica-lhe quantos clusters existem no modelo. No entanto, um modelo de agrupamento de sequências tem dois tipos de nós ao nível do cluster: um tipo de nó contém clusters, e o outro tipo de nó contém uma lista de sequências para o modelo como um todo.

Portanto, para aprender o número de clusters no modelo, pode-se tomar o valor de NODE_CARDINALITY para o nó (Todos) e subtrair um. Por exemplo, se o modelo criou 9 clusters, a cardinalidade da raiz do modelo é 10. Isto porque o modelo contém 9 nós de cluster, cada um com o seu próprio nó de sequência, mais um nó de sequência adicional rotulado como cluster 10, que representa as sequências do modelo.

Guia da Estrutura

Um exemplo pode ajudar a clarificar como a informação é armazenada e como pode interpretá-la. Por exemplo, pode encontrar a maior ordem, ou seja, a cadeia observada mais longa nos dados subjacentes do AdventureWorksDW2012 , usando a seguinte consulta:

USE AdventureWorksDW2012  
SELECT DISTINCT OrderNumber, Count(*)  
FROM vAssocSeqLineItems  
GROUP BY OrderNumber  
ORDER BY Count(*) DESC  

A partir destes resultados, verifica-se que os números de encomenda 'SO72656', 'SO58845' e 'SO70714' contêm as maiores sequências, com oito itens cada. Ao usar os IDs das encomendas, pode ver os detalhes de uma determinada encomenda para ver quais os artigos comprados e em que ordem.

OrderNumber NúmeroDeLinha Modelo
SO58845 1 Mountain-500
SO58845 2 LL Mountain Tire
SO58845 3 Câmara de pneu de montanha
SO58845 4 Fender Set - Montanha
SO58845 5 Gaiola de Garrafas da Montanha
SO58845 6 Garrafa de Água
SO58845 7 Sport-100
SO58845 8 Camisola de Manga Comprida com Logótipo

No entanto, alguns clientes que compram o Mountain-500 podem adquirir produtos diferentes. Pode ver todos os produtos que seguem o Mountain-500 consultando a lista de sequências no modelo. Os procedimentos seguintes guiam-no na visualização destas sequências utilizando os dois visualizadores fornecidos nos Serviços de Análise do SQL Server:

  1. No Explorador de Objetos, clique com o botão direito no modelo [Agrupamento de Sequência] e selecione Navegar.

  2. No visualizador de Agrupamento de Sequências, clique no separador Transições de Estado .

  3. Na lista pendente do Cluster, certifique-se de que População (Todos) está selecionada.

  4. Move a barra deslizante à esquerda do painel até ao topo, para mostrar todos os links.

  5. No diagrama, localize o Mountain-500 e clique no nó no diagrama.

  6. As linhas destacadas apontam para os estados seguintes (os produtos comprados após a Mountain-500) e os números indicam a probabilidade. Compare estes com os resultados no visualizador de conteúdo do modelo genérico.

  1. No Explorador de Objetos, clique com o botão direito no modelo [Agrupamento de Sequência] e selecione Navegar.

  2. Na lista suspensa de visualizadores, selecione o Microsoft Generic Content Tree Viewer.

  3. No painel de legenda do Nó, clique no nó chamado Nível de Sequência para o cluster 16.

  4. No Painel de Detalhes do Nó, encontre a linha NODE_DISTRIBUTION e clique em qualquer lugar da subtabela.

    A linha superior é sempre para o valor em falta. Esta linha é o estado da sequência 0.

  5. Pressiona a tecla de seta para baixo, ou usa as barras de scroll, para descer pela tabela aninhada até veres a linha, Mountain-500.

    A linha está no estado sequencial 20.

    Observação

    Pode obter o número da linha para um estado de sequência específico programaticamente, mas se estiver apenas a navegar, poderá ser mais fácil simplesmente copiar a tabela aninhada para uma folha de cálculo Excel.

  6. Retorne ao painel de legendas do Node e expanda o nó, nível de sequência para o cluster 16, se ainda não estiver expandido.

  7. Procure entre os seus nós filhos a linha de transição para o estado de sequência 20. Clique no nó de transição.

  8. A tabela aninhada NODE_DISTRIBUTION contém os seguintes produtos e probabilidades. Compare com os resultados na aba Transição de Estado do visualizador de Agrupamento de Sequências.

A tabela seguinte mostra os resultados da tabela NODE_DISTRIBUTION, juntamente com os valores arredondados de probabilidade que são apresentados no visualizador gráfico.

Produto Apoio (tabela NODE_DISTRIBUTION) Tabela de probabilidades (NODE_DISTRIBUTION) Probabilidade (a partir do grafo)
Faltam 48.447887 0.138028169 (não mostrado)
Boné de ciclismo 10.876056 0.030985915 0.03
Fender Set - Montanha 80.087324 0.228169014 0.23
Luvas de Meia-Dedo 0.9887324 0.002816901 0.00
Mochila de Hidratação 0.9887324 0,002816901 0.00
LL Mountain Tire 51.414085 0.146478873 0.15
Camisola de Manga Comprida com Logótipo 2.9661972 0.008450704 0,01
Gaiola de Garrafas da Montanha 87.997183 0.250704225 0.25
Câmara de pneu de montanha 16.808451 0.047887324 0.05
Camisola Clássica de Manga Curta 10.876056 0.030985915 0.03
Sport-100 20.76338 0.05915493 0.06
Garrafa de Água 18.785915 0.053521127 0.25

Embora o caso que inicialmente selecionámos a partir dos dados de treino incluísse o produto 'Mountain-500' seguido de 'LL Mountain Tire', pode ver que existem muitas outras sequências possíveis. Para encontrar informação detalhada para qualquer cluster em particular, deve repetir o processo de aprofundar desde a lista de sequências no cluster até às transições reais para cada estado ou produto.

Podes saltar da sequência listada num determinado cluster para a linha de transição. A partir dessa linha de transição, podes determinar qual produto é o próximo e voltar a esse produto na lista de sequências. Ao repetir este processo para cada primeiro e segundo estado, pode trabalhar através de longas cadeias de estados.

Utilização de Informação de Sequência

Um cenário comum para agrupamento de sequências é rastrear os cliques do utilizador num site. Por exemplo, se os dados proviseram de registos de compras de clientes no site de comércio eletrónico da Adventure Works, o modelo resultante de agrupamento de sequências poderia ser usado para inferir o comportamento dos utilizadores, redesenhar o site de comércio eletrónico para resolver problemas de navegação ou promover vendas.

Por exemplo, a análise pode mostrar que os utilizadores seguem sempre uma cadeia específica de produtos, independentemente da demografia. Além disso, pode descobrir que os utilizadores saem frequentemente do site depois de clicarem num determinado produto. Tendo em conta essa constatação, poderá perguntar que caminhos adicionais poderia fornecer aos utilizadores que os induzissem a permanecer no site.

Se não tiver informação adicional para classificar os seus utilizadores, pode simplesmente usar a informação da sequência para recolher dados sobre navegação e compreender melhor o comportamento geral. No entanto, se conseguir recolher informações sobre clientes e associá-las à sua base de dados de clientes, pode combinar o poder do agrupamento com a previsão de sequências para fornecer recomendações adaptadas ao utilizador, ou talvez baseadas no percurso de navegação até à página atual.

Outra utilização da informação extensa de estado e transição compilada por um modelo de agrupamento de sequências é determinar quais os caminhos possíveis nunca são utilizados. Por exemplo, se muitos visitantes vão às páginas 1-4, mas nunca continuam para a página 5, pode investigar se existem problemas que impedem a navegação até à página 5. Pode fazer isto consultando o conteúdo do modelo e comparando-o com uma lista de caminhos possíveis. Gráficos que mostram todos os caminhos de navegação num site podem ser criados programaticamente ou utilizando várias ferramentas de análise de sites.

Para saber como obter a lista de caminhos observados consultando o conteúdo do modelo, e para ver outros exemplos de consultas num modelo de clusterização de sequências, consulte Exemplos de Consultas de Modelos de Agrupamento de Sequências.

Ver também

Conteúdo de Modelos de Mineração (Serviços de Análise - Mineração de Dados)
Algoritmo de Clusterização de Sequências da Microsoft
Exemplos de Consultas de Modelos de Agrupamento de Sequências