É permitido usar médias em um conjunto de dados para melhorar a correlação?

9

Eu tenho um conjunto de dados com uma variável dependente e independente. Ambos não são uma série temporal. Eu tenho 120 observações. O coeficiente de correlação é 0,43

Após esse cálculo, adicionei uma coluna para ambas as variáveis ​​com a média para cada 12 observações, resultando em duas novas colunas com 108 observações (pares). O coeficiente de correlação dessas colunas é 0,77

Parece que melhorei a correlação dessa maneira. Isso é permitido? Aumentei o poder de explicação da variável independente usando médias?

user2165379
fonte
4
Tudo o que você fez foi executar os dados através de um filtro de suavização. Isso é feito o tempo todo no processamento do sinal e é perfeitamente aceitável e geralmente necessário antes que os dados sejam utilizáveis. Elimina o ruído que é sempre predominante nas medições eletrônicas. No entanto, se é aceitável para o seu problema específico depende das especificidades do que você está tentando alcançar e, provavelmente, em grande medida, quanto "ruído" versus "qualidade" há em seus dados. Eu notei "Ambos não são uma série de tempo", então eu suspeito que o que você fez não tem sentido porque alterar a ordem muda resultados
Dunk
Obrigado a todos. Minha variável dependente é uma série de resultados mensais de um sistema de apostas (esses resultados não estão relacionados). A variável independente é o resultado de um indicador que eu construí. Este indicador gera uma pontuação sobre o quão extremas as pontuações nos jogos esportivos foram em um determinado mês (esses resultados não estão relacionados). Eu suspeitava que o que fiz não tivesse sentido, embora me surpreendesse que o coeficiente de correlação tivesse melhorado tanto.
User2165379
2
Não tenho certeza, mas acho que a média de qualquer dado daria resultados semelhantes. Eu pensaria que a média reduz os efeitos dos outliers. Assim, a correlação teria que melhorar. Embora, aposto que algum geek da matemática pode criar dados bem escolhidos que causariam o efeito oposto, mas eu não esperaria que dados desse tipo ocorressem no mundo real.
Dunk
Não consegui ver se você especificou para que servem esses dados. No entanto, em geral, ao apresentar seus dados para o público especificado, é recomendável divulgar como os dados foram derivados.
Jon Milliken
3
Qual é a correlação dos valores médios que se pretende representar? Certamente não é mais uma estimativa razoável da correlação entre as variáveis ​​originais.
Glen_b -Reinstala Monica

Respostas:

15

Vamos dar uma olhada em dois vetores, o primeiro sendo

    2 6 2 6 2 6 2 6 2 6 2 6

e o segundo vetor sendo

   6 2 6 2 6 2 6 2 6 2 6 2

Calculando a correlação de Pearson, você obterá

cor(a,b)
[1] -1

No entanto, se você usar a média de pares sucessivos para valores, os dois vetores são idênticos. Vetores idênticos têm correlação 1.

  4 4 4 4 4 4  

Este exemplo simples ilustra uma desvantagem do seu método.

Editar : Para explicar de maneira mais geral: O coeficiente de correlação é calculado da seguinte maneira.

E[(XμX)(YμY)]σX σY

Médio de cerca de s e alguns s altera as diferenças entre e , bem como a diferença entre e .Y X μ X Y μ YXYXμXYμY

Ferdi
fonte
11
Eu adicionei algumas marcações, mas você pode e deve definir os termos e explicitamente. σμσ
Nick Cox
Obrigado. Isso significa que meus resultados são "inflados" ou lisonjeados usando as médias e que é sempre melhor usar as observações sem calcular a média?
user2165379
Para o teste de hipóteses, você deve dar uma olhada nos próprios dados e não nas médias. Em outros domínios, a estatística descritiva pode ser uma ferramenta útil. Você também deve examinar outras medidas da estatística descritiva, como quantis (especialmente mediana) e momentos mais altos (centralizados), como variação, assimetria e curtose. No entanto, no nosso caso, isso não é útil. Os vetores de um e b têm os mesmos quantiles, os mesmos momentos e os mesmos momentos centralizados.
Ferdi
11
A média tende a aumentar as correlações removendo a dispersão quase aleatória, mas uma média suficientemente perversa pode empurrar as correlações para zero.
Nick Cox
Obrigado. Portanto, se a média tende a aumentar a correlação em geral, isso implica que não é uma melhoria? Ou é uma melhoria porque a dispersão quase aleatória é removida?
User2165379
10

A média pode ser atraente ou conveniente. Também pode ser uma fonte de engano, na pior das hipóteses, portanto, seja cauteloso, mesmo quando houver uma justificativa clara para a média.

Aqui está uma situação que não é uma boa idéia. Considere que, com uma cuidadosa definição de grupos, você (normalmente) pode reduzir seus dados para dois pontos de resumo, cada um distinto nas duas variáveis; e então você obteria uma correlação perfeita com a magnitude . Parabéns, ou não! A melhoria aqui é falsa, sem uma boa razão independente para o procedimento. Você não precisa abordar esse caso extremo para abordar o perigo.1

Existem algumas situações em que a média pode fazer sentido. Por exemplo, se as variações sazonais são de pouco ou nenhum interesse, a média dos valores anuais cria um conjunto de dados reduzido no qual você pode se concentrar nesses valores anuais.

Em vários campos, os pesquisadores podem estar interessados ​​em correlações em escalas bastante diferentes, por exemplo, entre desemprego e crime para indivíduos, condados, estados e países (substitua os termos que façam mais sentido).

O interesse, e muitas vezes também a principal fonte de problemas de inferência, está na interpretação do que está acontecendo em diferentes escalas ou níveis. Por exemplo, uma alta correlação entre a taxa de desemprego e a taxa de criminalidade em áreas não significa necessariamente que os desempregados tenham uma tendência maior a serem criminosos; você precisa de dados sobre indivíduos para esclarecer isso. O fornecimento de dados pode ser extremamente complicado, pois os dados estão disponíveis apenas na escala menos interessante, talvez por uma questão de economia ou confidencialidade.

Observo também que muitas medições são, em primeiro lugar, geralmente médias em pequenos intervalos de tempo e / ou pequenos intervalos de espaço; portanto, os dados geralmente chegam à média em qualquer caso.

Nick Cox
fonte
3
Faço eco à resposta de @ Ferdi ao sublinhar que pode haver muitas maneiras diferentes de se calcular a média. Isso cria uma fonte extra de incerteza. A dificuldade é especialmente aguda na agregação de áreas pequenas a maiores.
Nick Cox