Quantificando a similaridade entre dois conjuntos de dados

12

Resumo : A tentativa de encontrar o melhor método resume a semelhança entre dois conjuntos de dados alinhados usando um único valor.

Detalhes :

Minha pergunta é melhor explicada com um diagrama. Os gráficos abaixo mostram dois conjuntos de dados diferentes, cada um com valores rotulados nfe nr. Os pontos ao longo do eixo x representam onde as medições foram realizadas e os valores no eixo y são o valor medido resultante.

Para cada gráfico, quero um único número para resumir a semelhança nfe os nrvalores em cada ponto de medição. Neste exemplo, é visualmente óbvio que os resultados nos primeiros gráficos são menos semelhantes aos do segundo gráfico. Mas eu tenho muitos outros dados em que a diferença é menos óbvia, portanto, poder classificá-los quantitativamente seria útil.

Eu pensei que poderia haver uma técnica padrão que normalmente é usada. A busca por similaridade estatística deu muitos resultados diferentes, mas não sei o que é melhor escolher ou se as coisas que eu já preparo se aplicam ao meu problema. Por isso, pensei que talvez valha a pena perguntar aqui, caso haja uma resposta simples.

insira a descrição da imagem aqui

Gabriel Southern
fonte
1
Você pode dar uma olhada neste artigo, que tem uma infinidade de medidas listadas. ( users.uom.gr/~kouiruki/sung.pdf ) Se o link não funcionar, ele será chamado de "Pesquisa abrangente sobre medidas de distância / semelhança entre funções de densidade de probabilidade", de Sung-Hyuk Cha no Jornal Internacional de Modelos e Métodos Matemáticos na Applied Science, que analisa uma infinidade de medidas de similaridade.
Arie64
A distorção dinâmica do tempo é usada para medir a semelhança entre duas séries temporais. Esta técnica pode fazer a tarefa aqui. Verifique este link: en.wikipedia.org/wiki/Dynamic_time_warping
Aman Anand

Respostas:

6

A área entre duas curvas pode lhe dar a diferença. Portanto, a soma (nr-nf) (soma de todas as diferenças) será uma aproximação da área entre 2 curvas. Se você quiser torná-lo relativo, soma (nr-nf) / soma (nf) pode ser usada. Isso fornecerá um valor único, indicando similaridade entre 2 curvas para cada gráfico.

Edit: O método acima da soma das diferenças será útil, mesmo que sejam pontos ou observações separados e não linhas ou curvas conectadas, mas nesse caso, a média das diferenças também pode ser um indicador e pode ser melhor, pois levaria em consideração o número de observações.

rnso
fonte
1
Vou tentar isso e ver como funciona. Ainda espero poder relacioná-lo a uma técnica mais formalizada. Eu tenho lido sobre Distância Euclidiana e parece que ela é bem parecida com a técnica aqui. Também como uma observação adicional, mesmo que meu gráfico tenha linhas de conexão, eu me preocupo apenas com os pontos individuais. Não estou realmente comparando curvas, apenas os valores medidos. Não sei se isso ficou claro na minha pergunta.
Gabriel Southern
Deve funcionar mesmo se os pontos não estiverem conectados.
rnso
1

Você precisa definir mais o que você quer dizer com 'semelhança'. A magnitude importa? Ou apenas forma?

Se apenas a forma for importante, convém normalizar as duas séries temporais pelo valor máximo (portanto, elas são de 0 a 1).

Se você está procurando uma correlação linear, uma correlação simples de pearson funcionará bem - o que mede essencialmente a covariância.

Existem outras técnicas, por exemplo, que podem ajustar uma linha ou polinômio à série temporal (essencialmente suavizando-a) e, em seguida, comparando os polinômios suaves.

Se você estiver procurando por similaridades periódicas (ou seja, a série temporal possui um certo componente sinusoidal ou sazonalidade), considere usar uma decomposição de séries temporais na tendência e temporize os componentes primeiro. Ou usando algo como FFT para comparar os dados no domínio da frequência.

É tudo o que sei sem mais definição do que 'semelhante' deve ser. Espero que ajude.

user151975
fonte
0

Você pode usar (nr-nf) para cada ponto de medição, quanto menor o número (valor absoluto), mais semelhante será o valor. Não é exatamente a abordagem mais científica, por favor, perdoe-me, não tenho treinamento formal real nessas coisas. Se você está apenas procurando uma representação numérica do visual, isso deve ser feito.

Mike G
fonte
1
Obrigado por sua sugestão. Também pensei nisso, mas o problema é que será ponderado pela diferença absoluta, e não pela diferença relativa. No exemplo, incluí os conjuntos de dados mais semelhantes e também possuíam valores absolutos menores, mas se a situação fosse revertida, você poderia obter uma interpretação incorreta usando essa técnica. Preciso resumir a relativa semelhança / diferença, em vez de uma diferença absoluta.
Gabriel Southern
(Nr-nf) / nf funcionaria? Isso te tornaria relativo. Estou realmente interessado em ver a resposta real, já que estou lidando com o mesmo tipo de situação.
Mike G
Se todos eles estão em uma escala comparável, o fato de que seus similares geralmente são mais baixos não se refere a valores relativos, mas a interpretação da semelhança. Se os valores no segundo gráfico variassem de 101 a 104, isso mudaria a interpretação de sua similaridade? Se sim, você precisa explicar isso. Seriam necessários mais detalhes sobre o que exatamente é a variável y.
John
@ John, esse é um bom argumento. Acho que preciso pensar mais sobre isso. Os valores em y são valores de aceleração para uma referência e estou tentando comparar a similaridade entre uma variedade de configurações diferentes. Então, acho que a sugestão nesta resposta pode funcionar, posso tentar apenas para ver como são os números. Eu ainda preferiria usar uma técnica estatística mais formalmente aceita (se houver uma para o meu problema).
Gabriel Southern