Regressão em toda a população

9

Qual é o significado do erro padrão de um coeficiente em uma regressão quando toda a população é incluída?

Fiquei tão intrigado com esta pergunta. Porque me parece que os erros padrão não fazem sentido quando toda a população está incluída - não há necessidade de inferência estatística, pois você já tem toda a população.

Mas é tão amplamente utilizado, mesmo em muitos artigos publicados nos principais periódicos. Por exemplo, se estou examinando a relação entre a taxa de crescimento do PIB de um país e sua densidade populacional, execute a regressão:

GDPi=α+βPopi+γXi+ϵi

com todos os 195 países do mundo. No caso, todos os países (a população) estão incluídos. Mas toda a literatura ainda fala sobre a significância estatística dos coeficientes.

Alguém poderia explicar que é um uso indevido de inferência estatística ao regredir sobre toda a população?

Akira Osawa
fonte
Esta pergunta foi respondida na rede de estatísticas. Veja aqui . Basicamente, as estatísticas não têm relevância. A "regressão" é um dispositivo puramente matemático.
Luchonacho
@luchonacho Minha opinião é que esta questão é sobre o assunto aqui, com relação ao conteúdo que naturalmente temos sobreposição com stats.SE). Eu concordo que é essencialmente uma duplicata, no entanto. Eu encontrei uma discussão sobre o que fazer com cross-site duplicatas aqui: meta.stackexchange.com/questions/172307/...
jmbejara
@jmbejara Obrigado pela referência. Bom saber.
Luchonacho #
Esta parece ser outra referência pertinente. Ele discute uma técnica relacionada chamada inferência de randomização, conforme discutido em Athey Imbens (2017). jasonkerwin.com/nonparibus/2017/09/25/…
jmbejara

Respostas:

3

Inicialmente, eu sinalizei essa pergunta para os moderadores examinarem se seria melhor migrar para o site de estatísticas SE validado cruzadamente. Porém, desde que o OP introduziu um exemplo econométrico muito específico, acredito que o conceito (muito profundo) de "população / amostra" possa ser útil para ser discutido para os fins deste exemplo.

Uma primeira questão é a discutida na resposta do @AdamBailey: se considerarmos "todos os países do mundo" por um determinado ano ou anos e rotularmos os dados como "população", o próximo ano deverá pertencer a uma população diferente. Se pertencer a uma população diferente, como devemos usar os resultados de uma população para fazer inferência para outra população? De fato, aqui nossa "população" é bidimensional , país e período de tempo - e nesse sentido, com o horizonte de tempo aberto, só temos uma amostra em nossas mãos.

GDPi,i=1,..n

Portanto, nossos dados são apenas uma das possíveis realizações combinadas dessas variáveis ​​aleatórias. Essas realizações surgiram não apenas como resultado de relações / causalidade determinísticas / de engenharia (refletidas nos coeficientes), mas também sob o efeito de fatores inerentemente aleatórios. Nesse sentido, os dados não são uma imagem "pura / típica" da "população" - contêm ruído, distúrbios não estruturais, choques pontuais etc.

Então essa incerteza será transferida para a estimativa dos coeficientes que estamos tentando estimar, porque assumimos que esses coeficientes descrevem causalidade ou co-movimento antes dos elementos aleatórios que afetam o valor final da variável dependente.

Devido aos dois aspectos acima, falar sobre "erro padrão de estimativas" é totalmente válido, também neste caso, e depois aplicar testes estatísticos como de costume.

Alecos Papadopoulos
fonte
5

É importante considerar o que exatamente é a população sobre a qual uma inferência está sendo feita. É fácil ignorar o aspecto do tempo nesse contexto.

Suponha, por exemplo, que o objetivo seja prever o próximo PIB de dois anos para cada país do mundo. Então a população de interesse é um conjunto de pares da forma "país, ano". Não é simplesmente "todos os países" e, mesmo que um modelo de previsão tenha sido estimado por regressão nos dados dos anos atuais e dos últimos anos de cada país, isso não significa que toda a população de interesse tenha sido incluída.

Se realmente começarmos com um conjunto de dados completo para toda a população de interesse, tudo o que podemos fazer é calcular estatísticas resumidas. Isso pode incluir desvios-padrão, mas seria inapropriado chamar esses erros-padrão, pois esse termo se refere a uma distribuição amostral, enquanto a única "amostra" nesse caso é toda a população.

Adam Bailey
fonte
Muito obrigado. Só para deixar mais claro, atualizei a questão: neste caso, 'todos os países' são considerados toda a população? Se não houver, isso significa que são 'amostras' de alguma 'superpopulação' - suponha que existam milhões de países no 'universo paralelo', e os 195 países na Terra sejam distribuídos de forma independente e idêntica entre eles e são amostrados aleatoriamente. Não é uma suposição absurda demais?
Akira Osawa 31/08