Qual é o significado do erro padrão de um coeficiente em uma regressão quando toda a população é incluída?
Fiquei tão intrigado com esta pergunta. Porque me parece que os erros padrão não fazem sentido quando toda a população está incluída - não há necessidade de inferência estatística, pois você já tem toda a população.
Mas é tão amplamente utilizado, mesmo em muitos artigos publicados nos principais periódicos. Por exemplo, se estou examinando a relação entre a taxa de crescimento do PIB de um país e sua densidade populacional, execute a regressão:
com todos os 195 países do mundo. No caso, todos os países (a população) estão incluídos. Mas toda a literatura ainda fala sobre a significância estatística dos coeficientes.
Alguém poderia explicar que é um uso indevido de inferência estatística ao regredir sobre toda a população?
fonte
Respostas:
Inicialmente, eu sinalizei essa pergunta para os moderadores examinarem se seria melhor migrar para o site de estatísticas SE validado cruzadamente. Porém, desde que o OP introduziu um exemplo econométrico muito específico, acredito que o conceito (muito profundo) de "população / amostra" possa ser útil para ser discutido para os fins deste exemplo.
Uma primeira questão é a discutida na resposta do @AdamBailey: se considerarmos "todos os países do mundo" por um determinado ano ou anos e rotularmos os dados como "população", o próximo ano deverá pertencer a uma população diferente. Se pertencer a uma população diferente, como devemos usar os resultados de uma população para fazer inferência para outra população? De fato, aqui nossa "população" é bidimensional , país e período de tempo - e nesse sentido, com o horizonte de tempo aberto, só temos uma amostra em nossas mãos.
Portanto, nossos dados são apenas uma das possíveis realizações combinadas dessas variáveis aleatórias. Essas realizações surgiram não apenas como resultado de relações / causalidade determinísticas / de engenharia (refletidas nos coeficientes), mas também sob o efeito de fatores inerentemente aleatórios. Nesse sentido, os dados não são uma imagem "pura / típica" da "população" - contêm ruído, distúrbios não estruturais, choques pontuais etc.
Então essa incerteza será transferida para a estimativa dos coeficientes que estamos tentando estimar, porque assumimos que esses coeficientes descrevem causalidade ou co-movimento antes dos elementos aleatórios que afetam o valor final da variável dependente.
Devido aos dois aspectos acima, falar sobre "erro padrão de estimativas" é totalmente válido, também neste caso, e depois aplicar testes estatísticos como de costume.
fonte
É importante considerar o que exatamente é a população sobre a qual uma inferência está sendo feita. É fácil ignorar o aspecto do tempo nesse contexto.
Suponha, por exemplo, que o objetivo seja prever o próximo PIB de dois anos para cada país do mundo. Então a população de interesse é um conjunto de pares da forma "país, ano". Não é simplesmente "todos os países" e, mesmo que um modelo de previsão tenha sido estimado por regressão nos dados dos anos atuais e dos últimos anos de cada país, isso não significa que toda a população de interesse tenha sido incluída.
Se realmente começarmos com um conjunto de dados completo para toda a população de interesse, tudo o que podemos fazer é calcular estatísticas resumidas. Isso pode incluir desvios-padrão, mas seria inapropriado chamar esses erros-padrão, pois esse termo se refere a uma distribuição amostral, enquanto a única "amostra" nesse caso é toda a população.
fonte