Resumo : A tentativa de encontrar o melhor método resume a semelhança entre dois conjuntos de dados alinhados usando um único valor.
Detalhes :
Minha pergunta é melhor explicada com um diagrama. Os gráficos abaixo mostram dois conjuntos de dados diferentes, cada um com valores rotulados nf
e nr
. Os pontos ao longo do eixo x representam onde as medições foram realizadas e os valores no eixo y são o valor medido resultante.
Para cada gráfico, quero um único número para resumir a semelhança nf
e os nr
valores em cada ponto de medição. Neste exemplo, é visualmente óbvio que os resultados nos primeiros gráficos são menos semelhantes aos do segundo gráfico. Mas eu tenho muitos outros dados em que a diferença é menos óbvia, portanto, poder classificá-los quantitativamente seria útil.
Eu pensei que poderia haver uma técnica padrão que normalmente é usada. A busca por similaridade estatística deu muitos resultados diferentes, mas não sei o que é melhor escolher ou se as coisas que eu já preparo se aplicam ao meu problema. Por isso, pensei que talvez valha a pena perguntar aqui, caso haja uma resposta simples.
fonte
Respostas:
A área entre duas curvas pode lhe dar a diferença. Portanto, a soma (nr-nf) (soma de todas as diferenças) será uma aproximação da área entre 2 curvas. Se você quiser torná-lo relativo, soma (nr-nf) / soma (nf) pode ser usada. Isso fornecerá um valor único, indicando similaridade entre 2 curvas para cada gráfico.
Edit: O método acima da soma das diferenças será útil, mesmo que sejam pontos ou observações separados e não linhas ou curvas conectadas, mas nesse caso, a média das diferenças também pode ser um indicador e pode ser melhor, pois levaria em consideração o número de observações.
fonte
Você precisa definir mais o que você quer dizer com 'semelhança'. A magnitude importa? Ou apenas forma?
Se apenas a forma for importante, convém normalizar as duas séries temporais pelo valor máximo (portanto, elas são de 0 a 1).
Se você está procurando uma correlação linear, uma correlação simples de pearson funcionará bem - o que mede essencialmente a covariância.
Existem outras técnicas, por exemplo, que podem ajustar uma linha ou polinômio à série temporal (essencialmente suavizando-a) e, em seguida, comparando os polinômios suaves.
Se você estiver procurando por similaridades periódicas (ou seja, a série temporal possui um certo componente sinusoidal ou sazonalidade), considere usar uma decomposição de séries temporais na tendência e temporize os componentes primeiro. Ou usando algo como FFT para comparar os dados no domínio da frequência.
É tudo o que sei sem mais definição do que 'semelhante' deve ser. Espero que ajude.
fonte
Você pode usar (nr-nf) para cada ponto de medição, quanto menor o número (valor absoluto), mais semelhante será o valor. Não é exatamente a abordagem mais científica, por favor, perdoe-me, não tenho treinamento formal real nessas coisas. Se você está apenas procurando uma representação numérica do visual, isso deve ser feito.
fonte