No contexto de uma proposta de pesquisa em ciências sociais, me fizeram a seguinte pergunta:
Eu sempre fui 100 + m (onde m é o número de preditores) ao determinar o tamanho mínimo da amostra para regressão múltipla. Isso é apropriado?
Eu recebo muitas perguntas semelhantes, geralmente com regras diferentes. Eu também já li bastante essas regras em vários livros didáticos. Às vezes me pergunto se a popularidade de uma regra em termos de citações se baseia em quão baixo o padrão é estabelecido. No entanto, também estou ciente do valor de boas heurísticas na simplificação da tomada de decisões.
Questões:
- Qual é a utilidade de regras práticas simples para tamanhos mínimos de amostra no contexto de pesquisadores aplicados que elaboram estudos de pesquisa?
- Você sugeriria uma regra prática alternativa para o tamanho mínimo da amostra para regressão múltipla?
- Como alternativa, que estratégias alternativas você sugeriria para determinar o tamanho mínimo da amostra para regressão múltipla? Em particular, seria bom se o valor fosse atribuído ao grau em que qualquer estratégia possa ser prontamente aplicada por um não estatístico.
fonte
(+1) para de fato uma pergunta crucial, na minha opinião,.
Na macroeconomia, você geralmente tem tamanhos de amostra muito menores do que em experimentos micro, financeiros ou sociológicos. Um pesquisador se sente muito bem quando pode fornecer estimativas pelo menos viáveis. Minha regra pessoal menos possível é ( graus de liberdade em um parâmetro estimado). Em outros campos de estudos aplicados, geralmente você tem mais sorte com os dados (se não for muito caro, basta coletar mais pontos de dados) e pode perguntar qual é o tamanho ideal de uma amostra (e não apenas o valor mínimo para isso). A última questão vem do fato de que mais dados de baixa qualidade (barulhentos) não são melhores do que uma amostra menor de dados de alta qualidade.quatro4⋅m 4
A maioria dos tamanhos de amostra está vinculada ao poder dos testes para a hipótese que você testará após ajustar o modelo de regressão múltipla.
Há uma boa calculadora que pode ser útil para vários modelos de regressão e alguma fórmula nos bastidores. Penso que uma calculadora desse priorado poderia ser facilmente aplicada por não estatísticos.
Provavelmente, o artigo de K.Kelley e SEMaxwell pode ser útil para responder a outras perguntas, mas primeiro preciso de mais tempo para estudar o problema.
fonte
Sua regra geral não é particularmente boa se for muito grande. Tome : sua regra diz que não há problema em ajustar variáveis com apenas observações. Eu dificilmente penso assim!m m=500 500 600
Para regressão múltipla, você tem alguma teoria para sugerir um tamanho mínimo de amostra. Se você usará mínimos quadrados comuns, uma das suposições necessárias é que os "resíduos verdadeiros" sejam independentes. Agora, quando você ajusta um modelo de mínimos quadrados a variáveis, está impondo restrições lineares em seus resíduos empíricos (dados pelos mínimos quadrados ou equações "normais"). Isso implica que os resíduos empíricos não são independentes - uma vez que conhecemos o deles, o restante pode ser deduzido, onde é o tamanho da amostra. Portanto, temos uma violação dessa suposição. Agora a ordem da dependência é . Portanto, se você escolherm m+1 n−m−1 m+1 n O(m+1n) n=k(m+1) para algum número , então a ordem é dada por . Portanto, ao escolher , você está escolhendo quanta dependência deseja tolerar. Escolho da mesma maneira que você aplica para aplicar o "teorema do limite central" - é bom, e temos a regra "estatísticas de contagem" (ou seja, o sistema de contagem do estatístico é ).k kk10-2030≡∞1,2,...,26,27,28,29,∞O(1k) k k 10−20 30≡∞ 1,2,…,26,27,28,29,∞
fonte
n=k(m+1)
?Em Psicologia:
Green (1991) indica que (onde m é o número de variáveis independentes) é necessário para testar correlação múltipla e para testar preditores individuais.N > 104 + mN>50+8m N>104+m
Outras regras que podem ser usadas são ...
Harris (1985) diz que o número de participantes deve exceder o número de preditores em pelo menos .50
Van Voorhis & Morgan (2007) ( pdf ) usando 6 ou mais preditores, o mínimo absoluto de participantes deve ser . Embora seja melhor optar por participantes por variável.3010 30
fonte
N = 50 + 8 m
, apesar de ter sido questionado se o termo 50 é realmente necessárioConcordo que as calculadoras de potência são úteis, especialmente para ver o efeito de diferentes fatores sobre a potência. Nesse sentido, calculadoras que incluem mais informações de entrada são muito melhores. Para regressão linear, eu gosto da calculadora de regressão aqui, que inclui fatores como erro em Xs, correlação entre Xs e muito mais.
fonte
Descobri este artigo bastante recente (2015) avaliando que apenas 2 observações por variável são suficientes, desde que nosso interesse esteja na precisão dos coeficientes de regressão estimados e erros padrão (e na cobertura empírica dos intervalos de confiança resultantes) e use o ajustado :R2
( pdf )
Obviamente, como também reconhecido pelo artigo, a imparcialidade (relativa) não implica necessariamente ter poder estatístico suficiente. No entanto, os cálculos de potência e tamanho da amostra geralmente são feitos especificando os efeitos esperados; no caso de regressão múltipla, isso implica uma hipótese sobre o valor dos coeficientes de regressão ou sobre a matriz de correlação entre os regressores e o resultado. Na prática, depende da força da correlação dos regressores com o resultado e entre si (obviamente, quanto mais forte melhor para a correlação com o resultado, enquanto as coisas pioram com a multicolinearidade). Por exemplo, no caso extremo de duas variáveis perfeitamente colineares, não é possível executar a regressão, independentemente do número de observações, e mesmo com apenas duas covariáveis.
fonte