Eu tenho um conjunto de dados com uma variável dependente e independente. Ambos não são uma série temporal. Eu tenho 120 observações. O coeficiente de correlação é 0,43
Após esse cálculo, adicionei uma coluna para ambas as variáveis com a média para cada 12 observações, resultando em duas novas colunas com 108 observações (pares). O coeficiente de correlação dessas colunas é 0,77
Parece que melhorei a correlação dessa maneira. Isso é permitido? Aumentei o poder de explicação da variável independente usando médias?
regression
correlation
mean
predictor
cross-section
user2165379
fonte
fonte
Respostas:
Vamos dar uma olhada em dois vetores, o primeiro sendo
e o segundo vetor sendo
Calculando a correlação de Pearson, você obterá
No entanto, se você usar a média de pares sucessivos para valores, os dois vetores são idênticos. Vetores idênticos têm correlação 1.
Este exemplo simples ilustra uma desvantagem do seu método.
Editar : Para explicar de maneira mais geral: O coeficiente de correlação é calculado da seguinte maneira.
Médio de cerca de s e alguns s altera as diferenças entre e , bem como a diferença entre e .Y X μ X Y μ YX Y X μX Y μY
fonte
A média pode ser atraente ou conveniente. Também pode ser uma fonte de engano, na pior das hipóteses, portanto, seja cauteloso, mesmo quando houver uma justificativa clara para a média.
Aqui está uma situação que não é uma boa idéia. Considere que, com uma cuidadosa definição de grupos, você (normalmente) pode reduzir seus dados para dois pontos de resumo, cada um distinto nas duas variáveis; e então você obteria uma correlação perfeita com a magnitude . Parabéns, ou não! A melhoria aqui é falsa, sem uma boa razão independente para o procedimento. Você não precisa abordar esse caso extremo para abordar o perigo.1
Existem algumas situações em que a média pode fazer sentido. Por exemplo, se as variações sazonais são de pouco ou nenhum interesse, a média dos valores anuais cria um conjunto de dados reduzido no qual você pode se concentrar nesses valores anuais.
Em vários campos, os pesquisadores podem estar interessados em correlações em escalas bastante diferentes, por exemplo, entre desemprego e crime para indivíduos, condados, estados e países (substitua os termos que façam mais sentido).
O interesse, e muitas vezes também a principal fonte de problemas de inferência, está na interpretação do que está acontecendo em diferentes escalas ou níveis. Por exemplo, uma alta correlação entre a taxa de desemprego e a taxa de criminalidade em áreas não significa necessariamente que os desempregados tenham uma tendência maior a serem criminosos; você precisa de dados sobre indivíduos para esclarecer isso. O fornecimento de dados pode ser extremamente complicado, pois os dados estão disponíveis apenas na escala menos interessante, talvez por uma questão de economia ou confidencialidade.
Observo também que muitas medições são, em primeiro lugar, geralmente médias em pequenos intervalos de tempo e / ou pequenos intervalos de espaço; portanto, os dados geralmente chegam à média em qualquer caso.
fonte