Eu tenho alguns pontos de dados, cada um contendo 5 vetores de resultados discretos aglomerados, os resultados de cada vetor gerados por uma distribuição diferente (o tipo específico do qual não tenho certeza, meu melhor palpite é Weibull, com o parâmetro de forma variando em algum ponto exponencial à potência lei (1 a 0, aproximadamente).)
Eu estou olhando para usar um algoritmo de cluster como K-Means para colocar cada ponto de dados em grupos com base nos atributos de suas 5 distribuições de componentes. Fiquei me perguntando se existem métricas de distância estabelecidas que seriam elegantes para esses fins. Até agora, eu tive três idéias, mas não sou um estatístico experiente (mais um cientista iniciante em mineração de dados), por isso tenho pouca ideia de quão longe estou do caminho.
Como não sei exatamente com que tipo de distribuição estou lidando, minha abordagem de força bruta para o problema foi dividir cada uma das distribuições (eu tenho 5 por ponto) em cada um de seus respectivos valores de dados discretos. cada um correspondente ao mesmo comprimento com zeros no final) e use cada um desses valores como um atributo separado para o próprio ponto de dados. Tentei usar a distância de Manhattan e a distância euclidiana como métricas com base nesses atributos, tanto para o PDF quanto para o CDF.
Novamente, como não sei que tipos de distribuição tenho, imaginei que, se fosse medir a distância entre as distribuições gerais, poderia usar algum tipo de teste não paramétrico emparelhado entre distribuições, como o teste KS , para descobrir a probabilidade de que as distribuições fornecidas tenham sido geradas por diferentes PDFs. Eu pensei que minha primeira opção (acima) usando a distância de Manhattan seria uma espécie de limite superior ao que eu poderia obter usando essa abordagem (já que a estatística KS é o valor absoluto máximo da diferença dos CDFs, onde a distância de Manhattan é a soma dos valores absolutos das diferenças nos PDFs). Considerei então combinar os diferentes KS-Statistics ou P-values dentro de cada ponto de dados, provavelmente usando a distância euclidiana, mas possivelmente apenas usando o máximo de todos esses valores.
Por fim, em um esforço para usar o pouco que posso interpretar sobre a forma das distribuições, pensei em tentar estimar os parâmetros das distribuições como se encaixassem em uma curva de Weibull. Eu poderia então agrupar as distribuições com base nas diferenças nos dois parâmetros da distribuição Weibull, lambda e k (escala e forma), provavelmente normalizados de acordo com a variação desses parâmetros ou algo do tipo. Este é o único caso em que pensei ter uma idéia de como normalizar os parâmetros.
Então, minha pergunta é: que medida / métodos você recomendaria para agrupar distribuições? Estou no caminho certo com alguma dessas coisas? O K-Means é um bom algoritmo para usar?
Edit: Esclarecimento de dados.
Cada ponto de dados (cada objeto Obj
que eu quero agrupar) realmente contém literalmente 5 vectors
dados. Eu sei que existem exatamente 5 fases em que esses objetos podem estar. Diremos (para fins de simplificação) que cada vetor é length N
.
Cada um destes vectores (chamá-la vector i
) é uma distribuição de probabilidade com número inteiro x-values
de 1 a N, em que cada valor y correspondente representa a probabilidade de medir value x
em phase i
do objecto Obj
. N é então o valor x máximo que eu espero medir em qualquer fase do objeto (esse não é realmente um número fixo na minha análise).
Eu determino essas probabilidades da seguinte maneira:
Eu tomo um único
Obj
e colocá-lo emphase i
parak trials
, fazer uma medição em cada tentativa. Cada medida é um único número inteiro. Eu faço isso para cada uma das 5 fases de um único objeto e, por sua vez, para cada objeto. Meus dados brutos de medição para um único objeto podem se parecer com:Vetor 1. [90, 42, 30, 9, 3, 4, 0, 1, 0, 0, 1]
Vetor 2. [150, 16, 5, 0, 1, 0, 0, 0, 0, 0, 0]
...
Vetor 5. [16, ... ..., 0]
Em seguida, normalizo cada um dos vetores por conta própria, com relação ao número total de medições nesse vetor determinado. Isto dá-me uma distribuição de probabilidades em que vectorial, em que cada valor y correspondente representa a probabilidade de medir
value x
emphase i
.
fonte
Respostas:
A geometria da informação (computacional) é um campo que lida exatamente com esse tipo de problema. O K-means tem uma extensão chamada Bregman k-means, que usa divergências (cujo euclidiano quadrado do K-mean padrão é um caso particular, mas também Kullback-Leibler). Uma dada divergência está associada a uma distribuição, por exemplo, quadrado euclidiano para gaussiano.
Você também pode dar uma olhada no trabalho de Frank Nielsen , por exemplo
Você também pode dar uma olhada nas distâncias de Wasserstein (transporte ideal) , mencionadas como Distância do movimentador de terra em uma postagem anterior.
fonte
Em seu artigo sobre o algoritmo EP-Means , Henderson et al. Revisam as abordagens para esse problema e apresentam as suas próprias. Eles consideram:
Outra técnica que usei com sucesso é agrupar todos os pontos observados de todas as distribuições individualmente e atribuir à distribuição i a probabilidade branda correspondente à proporção de seus pontos que terminam em cada cluster. Por outro lado, é muito mais difícil separar distribuições dessa maneira. No lado positivo, meio que se auto-regulariza e assume que todas as distribuições são iguais. Eu usaria apenas quando essa propriedade de regularização é desejada.
fonte
$i$
produz$l_2$
produzVocê deve prosseguir em duas etapas. (1) Redução de dados e (2) Clustering.
Para a etapa (1), você deve inspecionar cuidadosamente seus dados e determinar uma distribuição de probabilidade razoável para seus dados. Parece que você já pensou sobre essa etapa. O próximo passo é estimar os parâmetros dessas distribuições. Você pode ajustar um modelo separadamente para cada unidade a ser agrupada em cluster, ou pode ser apropriado usar um modelo mais sofisticado, como um modelo misto linear generalizado.
Para a etapa (2), você pode agrupar com base nessas estimativas de parâmetros. Nesta fase, você deve ter um pequeno número de estimativas de parâmetros por unidade. Conforme descrito na resposta a esta postagem , você pode agrupar essas estimativas de parâmetros.
Essa resposta é necessariamente um tanto vaga - não há solução "enlatada" aqui, e uma grande quantidade de insight estatístico é necessária para que cada etapa selecione entre um número quase infinito de métodos que podem ser relevantes, dependendo do seu problema único. A declaração da sua pergunta mostra que você se auto-instruiu bastante conhecimento estatístico, o que é louvável, mas você ainda tem alguns mal-entendidos fundamentais dos principais conceitos estatísticos, como a distinção entre uma distribuição de probabilidade e as observações de uma distribuição de probabilidade . Considere fazer / auditar um ou dois cursos de estatística matemática.
fonte