Se você executar a regressão OLS em dados de seção transversal, deverá testar a autocorrelação em resíduos?

Eu tenho um conjunto de observações, independente do tempo. Gostaria de saber se devo executar algum teste de autocorrelação? Parece-me que não faz sentido, uma vez que não há componente de tempo nos meus dados. No entanto, na verdade, tentei o teste LM de correlação serial e indica forte autocorrelação de resíduos. Isto faz algum sentido? O que estou pensando é que posso realmente reorganizar as observações no meu conjunto de dados em qualquer ordem possível, e isso alteraria a autocorrelação em resíduos. Portanto, a pergunta é: devo me preocupar com a autocorrelação nesse caso? E devo usar Newey-West para ajustar o SE, caso o teste indique isso? Obrigado!

multiple-regression least-squares autocorrelation residuals cross-section user28479
fonte

Você disse corretamente que, sem um componente de tempo, seus resíduos não podem ser correlacionados em série. Portanto, um teste para correlação serial neste caso não é válido. As preocupações mais comuns em dados de seção transversal são heterocedasticidade ou correlação espacial (por exemplo, a taxa de criminalidade na cidade A afeta a taxa de criminalidade na cidade B), mas ambas são facilmente corrigidas com as opções robustas e de cluster do Stata.

Andy

Vamos tentar reformular isso sem usar os termos correlação serial ou autocorrelação. A variável dependente de um modelo de regressão possui uma matriz de variância condicional, ou seja, condicional às variáveis independentes. Esperamos que os elementos diagonais da matriz, ou seja, as variações condicionais dos elementos de y, sejam diferentes de zero. Se o modelo é transversal, podemos inferir que os elementos fora da diagonal, isto é, as covariâncias dos pares de elementos de y, devem ser zero? Certamente a falta de uma interpretação de séries temporais não elimina essa possibilidade, embora possa torná-la menos provável?

27613 Adam Bailey

... Um exemplo, como Andy sugere, seria a covariância entre elementos espacialmente relacionados. Um possível exemplo não espacial é o local em que a variável dependente é o PNB em diferentes países (ao mesmo tempo), onde dois países distantes podem ter vínculos comerciais estreitos (por exemplo, por razões históricas), resultando em covariância diferente de zero.

Adam Bailey

Quando seus dados possuem clusters, a dependência transversal é possível. Você pode ajustar o SE como @ Andy sugerido. Uma observação sobre o SE robusto em cluster é que o SE robusto funciona se cada cluster de dados for pequeno e houver muitos clusters observados. No entanto, se você tiver alguns clusters grandes, o SE robusto do cluster não será válido. De fato, no caso de cluster grande, o OLS agrupado pode ser inconsistente. Você pode consultar Andrews (2005, Econometrica) para referência.

Semibruin

Respostas:

A verdadeira distinção entre dados é se existe ou não uma ordem natural deles que corresponde às estruturas do mundo real e é relevante para o problema em questão.

É claro que a "ordem natural" mais clara (e incontestável) é a do tempo e, portanto, a dicotomia usual "série transversal / série temporal". Mas, como apontado nos comentários, podemos ter dados que não sejam de séries temporais que, no entanto, possuem uma ordenação espacial natural . Nesse caso, todos os conceitos e ferramentas desenvolvidos no contexto da análise de séries temporais se aplicam aqui igualmente bem, pois você deve perceber que existe uma ordenação espacial significativa e não apenas preservá-la, mas também examinar o que isso pode implicar. a série do termo de erro, entre outras coisas relacionadas ao modelo inteiro (como a existência de uma tendência, que tornaria os dados não estacionários por exemplo).

Para um exemplo (bruto), suponha que você colete dados sobre o número de carros que pararam em vários estabelecimentos de parada ao longo de uma rodovia, em um dia específico (essa é a variável dependente). Seus regressores medem as várias instalações / serviços que cada parada oferece, e talvez outras coisas como distância das saídas / entradas da rodovia. Estes estabelecimentos são naturalmente ordenados ao longo da rodovia ...

Mas isso importa? Devemos manter a ordem e até nos perguntar se o termo de erro é correlacionado automaticamente? Certamente : suponha que, na realidade, algumas instalações / serviços no estabelecimento nº 1 não sejam funcionais durante esse dia específico (esse evento seria capturado pelo termo de erro). Os carros que pretendem usar essas instalações / serviços específicos, no entanto, param, porque não conhecem o problema. Mas eles descobrirão o problema e, por causa do problema , também pararão no próximo estabelecimento, no 2, onde, seo que eles querem é oferecer, eles receberão os serviços e não pararão no estabelecimento n ° 3 - mas existe a possibilidade de o estabelecimento n ° 2 parecer caro, e assim, afinal, tentarão também o estabelecimento n ° 3: Isso significa que as variáveis dependentes dos três estabelecimentos podem não ser independentes, o que equivale a dizer que existe a possibilidade de correlação dos três termos de erro correspondentes, e não "igualmente", mas dependendo de suas respectivas posições.

Portanto, a ordenação espacial deve ser preservada e os testes de autocorrelação devem ser executados - e serão significativos.

Se, por outro lado, nenhuma ordem "natural" e significativa parecer estar presente para um conjunto de dados específico, a possível correlação entre as observações não deverá ser designada como "autocorrelação" porque seria enganosa e as ferramentas desenvolvidas especificamente para pedidos dados são inaplicáveis. Mas a correlação pode muito bem existir, embora, nesse caso, seja mais difícil detectá-la e calculá-la.

Alecos Papadopoulos
fonte