Qual o tamanho de uma amostra para uma determinada técnica e parâmetros de estimativa?

12

Existe uma regra prática ou mesmo alguma maneira de dizer qual o tamanho de uma amostra para estimar um modelo com um determinado número de parâmetros?

Então, por exemplo, se eu quiser estimar uma regressão de mínimos quadrados com 5 parâmetros, qual deve ser o tamanho da amostra?

Importa qual técnica de estimativa você está usando (por exemplo, probabilidade máxima, mínimos quadrados, GMM) ou quantos ou quais testes você vai executar? A variabilidade da amostra deve ser levada em consideração ao tomar a decisão?

Vivi
fonte

Respostas:

11

A resposta trivial é que mais dados são sempre preferidos a menos dados.

O problema do tamanho pequeno da amostra é claro. Tecnicamente, na regressão linear (OLS), você pode ajustar um modelo como OLS em que n = k + 1, mas você obterá lixo disso, ou seja, erros padrão muito grandes. Existe um excelente artigo de Arthur Goldberger chamado Micronumerocity sobre esse tópico, que está resumido no capítulo 23 de seu livro Um Curso em Econometria .

Uma heurística comum é que você deve ter 20 observações para cada parâmetro que deseja estimar. É sempre uma troca entre o tamanho dos seus erros padrão (e, portanto, testes de significância) e o tamanho da sua amostra. Essa é uma das razões pelas quais alguns de nós odeiam o teste de significância, pois você pode obter um erro padrão incrivelmente pequeno (relativo) com uma amostra enorme e, portanto, encontrar significância estatística sem sentido em testes ingênuos, como se um coeficiente de regressão é zero.

Embora o tamanho da amostra seja importante, a qualidade da sua amostra é mais importante, por exemplo, se a amostra é generalizável para a população, é uma Amostra Aleatória Simples ou alguma outra metodologia de amostragem apropriada (e isso foi contabilizado durante a análise), há erro de medição , viés de resposta, viés de seleção etc.

Graham Cookson
fonte
3

Gosto de usar reamostragem: repito qualquer método que usei com uma subamostra dos dados (digamos 80% ou até 50% do total). Ao fazer isso com muitas subamostras diferentes, sinto como as estimativas são robustas. Para muitos procedimentos de estimativa, isso pode ser transformado em uma estimativa real (ou seja, publicável) dos seus erros.

Hbar
fonte
2

Deve sempre ser grande o suficiente! ;)

Todas as estimativas de parâmetros vêm com uma incerteza estimada, que é determinada pelo tamanho da amostra. Se você realizar uma análise de regressão, será útil lembrar que a distribuição Χ 2 é construída a partir do conjunto de dados de entrada. Se o seu modelo tivesse 5 parâmetros e você tivesse 5 pontos de dados, só seria possível calcular um único ponto da distribuição Χ 2 . Como você precisará minimizá-lo, você só pode escolher esse ponto como um palpite para o mínimo, mas terá que atribuir erros infinitos aos seus parâmetros estimados. Ter mais pontos de dados permitiria mapear melhor o espaço dos parâmetros, levando a uma melhor estimativa do mínimo da distribuição Χ 2 e, portanto, a erros menores do estimador.

Você usaria um estimador de máxima verossimilhança, em vez disso, a situação seria semelhante: mais pontos de dados levam a uma melhor estimativa do mínimo.

Quanto à variação de pontos, você precisaria modelar isso também. Ter mais pontos de dados tornaria o agrupamento de pontos em torno do valor "verdadeiro" mais óbvio (devido ao Teorema do Limite Central) e o perigo de interpretar uma grande flucuação de chance, pois o valor verdadeiro desse ponto diminuiria. E, como em qualquer outro parâmetro, sua estimativa para a variação de pontos se tornaria mais estável quanto mais pontos de dados você tiver.

Benjamin Bannier
fonte
2

Eu ouvi duas regras práticas a esse respeito. Defende-se que, desde que haja observações suficientes no termo de erro para evocar o teorema do limite central, por exemplo, 20 ou 30, você estará bem. O outro sustenta que, para cada declive estimado, deve-se ter pelo menos 20 ou 30 observações. A diferença entre usar 20 ou 30 como o número alvo é baseada em pensamentos diferentes sobre quando há observações suficientes para evocar razoavelmente o Teorema do Limite Central.

russellpierce
fonte
1
as duas respostas parecem muito diferentes para mim. Um diz 20 a 30, o outro diz 20 a 30 vezes as inclinações. Portanto, se você tiver 5 pistas, uma regra informa 20 a 30, a outra 100 a 150 observações. Isso não parece certo para mim ....
Vivi
1
São diretrizes bem diferentes. Eu suspeito que a desconexão é se você acha que o teste do modelo geral é importante (a diretriz N inferior) ou o teste das inclinações individuais que importam (a diretriz N mais alta).
22810 russellpierce