Distribuições de probabilidade de cluster - métodos e métricas?

13

Eu tenho alguns pontos de dados, cada um contendo 5 vetores de resultados discretos aglomerados, os resultados de cada vetor gerados por uma distribuição diferente (o tipo específico do qual não tenho certeza, meu melhor palpite é Weibull, com o parâmetro de forma variando em algum ponto exponencial à potência lei (1 a 0, aproximadamente).)

Eu estou olhando para usar um algoritmo de cluster como K-Means para colocar cada ponto de dados em grupos com base nos atributos de suas 5 distribuições de componentes. Fiquei me perguntando se existem métricas de distância estabelecidas que seriam elegantes para esses fins. Até agora, eu tive três idéias, mas não sou um estatístico experiente (mais um cientista iniciante em mineração de dados), por isso tenho pouca ideia de quão longe estou do caminho.

  1. Como não sei exatamente com que tipo de distribuição estou lidando, minha abordagem de força bruta para o problema foi dividir cada uma das distribuições (eu tenho 5 por ponto) em cada um de seus respectivos valores de dados discretos. cada um correspondente ao mesmo comprimento com zeros no final) e use cada um desses valores como um atributo separado para o próprio ponto de dados. Tentei usar a distância de Manhattan e a distância euclidiana como métricas com base nesses atributos, tanto para o PDF quanto para o CDF.

  2. Novamente, como não sei que tipos de distribuição tenho, imaginei que, se fosse medir a distância entre as distribuições gerais, poderia usar algum tipo de teste não paramétrico emparelhado entre distribuições, como o teste KS , para descobrir a probabilidade de que as distribuições fornecidas tenham sido geradas por diferentes PDFs. Eu pensei que minha primeira opção (acima) usando a distância de Manhattan seria uma espécie de limite superior ao que eu poderia obter usando essa abordagem (já que a estatística KS é o valor absoluto máximo da diferença dos CDFs, onde a distância de Manhattan é a soma dos valores absolutos das diferenças nos PDFs). Considerei então combinar os diferentes KS-Statistics ou P-values ​​dentro de cada ponto de dados, provavelmente usando a distância euclidiana, mas possivelmente apenas usando o máximo de todos esses valores.

  3. Por fim, em um esforço para usar o pouco que posso interpretar sobre a forma das distribuições, pensei em tentar estimar os parâmetros das distribuições como se encaixassem em uma curva de Weibull. Eu poderia então agrupar as distribuições com base nas diferenças nos dois parâmetros da distribuição Weibull, lambda e k (escala e forma), provavelmente normalizados de acordo com a variação desses parâmetros ou algo do tipo. Este é o único caso em que pensei ter uma idéia de como normalizar os parâmetros.

Então, minha pergunta é: que medida / métodos você recomendaria para agrupar distribuições? Estou no caminho certo com alguma dessas coisas? O K-Means é um bom algoritmo para usar?

Edit: Esclarecimento de dados.

Cada ponto de dados (cada objeto Objque eu quero agrupar) realmente contém literalmente 5 vectorsdados. Eu sei que existem exatamente 5 fases em que esses objetos podem estar. Diremos (para fins de simplificação) que cada vetor é length N.

Cada um destes vectores (chamá-la vector i) é uma distribuição de probabilidade com número inteiro x-valuesde 1 a N, em que cada valor y correspondente representa a probabilidade de medir value xem phase ido objecto Obj. N é então o valor x máximo que eu espero medir em qualquer fase do objeto (esse não é realmente um número fixo na minha análise).

Eu determino essas probabilidades da seguinte maneira:

  1. Eu tomo um único Obje colocá-lo em phase ipara k trials, fazer uma medição em cada tentativa. Cada medida é um único número inteiro. Eu faço isso para cada uma das 5 fases de um único objeto e, por sua vez, para cada objeto. Meus dados brutos de medição para um único objeto podem se parecer com:

    Vetor 1. [90, 42, 30, 9, 3, 4, 0, 1, 0, 0, 1]

    Vetor 2. [150, 16, 5, 0, 1, 0, 0, 0, 0, 0, 0]

    ...

    Vetor 5. [16, ... ..., 0]

  2. Em seguida, normalizo cada um dos vetores por conta própria, com relação ao número total de medições nesse vetor determinado. Isto dá-me uma distribuição de probabilidades em que vectorial, em que cada valor y correspondente representa a probabilidade de medir value xem phase i.

anseio da máquina
fonte
1
Não está claro para mim como seus pontos de dados podem "conter" as distribuições. Você poderia dar um exemplo? Além disso, Weibull não é uma distribuição de probabilidade discreta, portanto, algum esclarecimento extra seria desejável.
mpiktas
@mpiktas: cada ponto de dados representa um objeto que possui 5 fases diferentes. O comportamento de cada fase do objeto pode teoricamente ser representado por uma função contínua de distribuição de probabilidade, mas meus dados contêm apenas amostras discretas. A distribuição Weibull é provavelmente a função "teórica" ​​por trás dos meus dados, mas os dados em si são apenas medições de densidade em intervalos discretos.
anseio de máquina

Respostas:

5

A geometria da informação (computacional) é um campo que lida exatamente com esse tipo de problema. O K-means tem uma extensão chamada Bregman k-means, que usa divergências (cujo euclidiano quadrado do K-mean padrão é um caso particular, mas também Kullback-Leibler). Uma dada divergência está associada a uma distribuição, por exemplo, quadrado euclidiano para gaussiano.

Você também pode dar uma olhada no trabalho de Frank Nielsen , por exemplo

Você também pode dar uma olhada nas distâncias de Wasserstein (transporte ideal) , mencionadas como Distância do movimentador de terra em uma postagem anterior.

microfone
fonte
3

Em seu artigo sobre o algoritmo EP-Means , Henderson et al. Revisam as abordagens para esse problema e apresentam as suas próprias. Eles consideram:

  1. Cluster de parâmetros - determine os parâmetros para as distribuições com base no conhecimento prévio da distribuição e o cluster com base nesses parâmetros
    • observe que aqui, você pode realmente usar qualquer funcionalidade nos dados, não apenas estimativas de parâmetros, o que é útil se você souber que seus dados são provenientes de diferentes distribuições
  2. Binning do histograma - separe os dados em compartimentos e considere cada compartimento como uma dimensão a ser usada no cluster espacial
  3. eu1

Outra técnica que usei com sucesso é agrupar todos os pontos observados de todas as distribuições individualmente e atribuir à distribuição i a probabilidade branda correspondente à proporção de seus pontos que terminam em cada cluster. Por outro lado, é muito mais difícil separar distribuições dessa maneira. No lado positivo, meio que se auto-regulariza e assume que todas as distribuições são iguais. Eu usaria apenas quando essa propriedade de regularização é desejada.

metapertura
fonte
1
Bem vindo ao nosso site! Observe que você pode usar a marcação Latex aqui colocando texto dentro de cifrões, por exemplo, $i$produzEuou $l_2$produzeu2, O que pode torná-lo mais fácil de se expressar
Silverfish
1

Você deve prosseguir em duas etapas. (1) Redução de dados e (2) Clustering.

Para a etapa (1), você deve inspecionar cuidadosamente seus dados e determinar uma distribuição de probabilidade razoável para seus dados. Parece que você já pensou sobre essa etapa. O próximo passo é estimar os parâmetros dessas distribuições. Você pode ajustar um modelo separadamente para cada unidade a ser agrupada em cluster, ou pode ser apropriado usar um modelo mais sofisticado, como um modelo misto linear generalizado.

Para a etapa (2), você pode agrupar com base nessas estimativas de parâmetros. Nesta fase, você deve ter um pequeno número de estimativas de parâmetros por unidade. Conforme descrito na resposta a esta postagem , você pode agrupar essas estimativas de parâmetros.

Essa resposta é necessariamente um tanto vaga - não há solução "enlatada" aqui, e uma grande quantidade de insight estatístico é necessária para que cada etapa selecione entre um número quase infinito de métodos que podem ser relevantes, dependendo do seu problema único. A declaração da sua pergunta mostra que você se auto-instruiu bastante conhecimento estatístico, o que é louvável, mas você ainda tem alguns mal-entendidos fundamentais dos principais conceitos estatísticos, como a distinção entre uma distribuição de probabilidade e as observações de uma distribuição de probabilidade . Considere fazer / auditar um ou dois cursos de estatística matemática.

ahfoss
fonte