Número mínimo de pontos para uma regressão linear

16

O que seria um número mínimo "razoável" de observações para procurar uma tendência ao longo do tempo com uma regressão linear? que tal ajustar um modelo quadrático?

Trabalho com índices compostos de desigualdade em saúde (SII, RII) e tenho apenas 4 vagas da pesquisa, portanto, 4 pontos (1997,2001,2004,2008).

Não sou estatístico, mas tenho a impressão intuitiva de que 4 pontos não são suficientes. Você tem uma resposta e / ou referências?

Muito obrigado,

Françoise

Francoise
fonte
4
A regra geral usual é de 10 pontos para cada variável independente.
Peter Flom - Restabelece Monica
1
Como são medidos seus índices? Se eles incluírem estimativas de variabilidade, duas podem ser suficientes (usando um teste t ou seu análogo). O princípio estatístico básico que se aplica aqui é que, quando a variação aleatória é uma explicação improvável do que você está observando, você tem o direito de atribuir qualquer tendência aparente a causas não aleatórias. Quando a tendência é forte, podem ser necessários muito poucos valores de dados para chegar a essa conclusão, apesar de todas as "regras práticas" genéricas.
whuber

Respostas:

12

A regra básica de Peters de 10 por covariável é uma regra razoável. Uma linha reta pode ser ajustada perfeitamente com dois pontos, independentemente da quantidade de ruído nos valores de resposta, e uma quadrática pode ser ajustada perfeitamente com apenas 3 pontos. Tão claramente em quase todas as circunstâncias, seria apropriado dizer que 4 pontos são insuficientes. No entanto, como a maioria das regras práticas, ela não cobre todas as situações. Os casos em que o termo ruído no modelo possui uma grande variação exigirão mais amostras do que um caso semelhante em que a variação do erro é pequena.

O número necessário de pontos de amostra depende de objetos. Se você estiver fazendo uma análise exploratória apenas para ver se um modelo (digamos linear em uma covariável) parece melhor que outro (digamos uma função quadrática da covariável), menos de 10 pontos pode ser suficiente. Mas se você quiser estimativas muito precisas dos coeficientes de correlação e regressão para as covariáveis, poderá precisar de mais de 10 por covariável. Um critério de precisão de previsão pode exigir ainda mais amostras do que estimativas precisas de parâmetros. Observe que a variação das estimativas e previsões envolve a variação do termo de erro dos modelos.

Michael R. Chernick
fonte
Bons pontos, Michael; Eu estava tentando simplificar. :-). Dado o assunto da pergunta original, eu ficaria muito surpreso se menos de 10 pontos fossem adequados. É provável que as medidas de desigualdade na saúde apresentem muitos erros, e é improvável que as relações com o tempo sejam altamente lineares. Você conhece algum artigo sobre isso? É um tópico interessante que surge muito.
Peter Flom - Restabelece Monica
@PeterFlom Eu não. Eu examinaria van Belle'a um livro sobre regras estatísticas estatísticas para ver se ele usa uma regra como a que você mencionou. O bom de seu livro é que ele explica a lógica por trás de todas as regras. Concordo com você que uma regra que diz tomar pelo menos 10 por covariável é muito boa e usar menos seria raramente seguro, exceto em alguns casos exploratórios. Nas ciências da saúde onde trabalho, o termo ruído parece sempre grande, mas talvez alguns experimentos físicos ou de engenharia rigidamente controlados possam ter medições muito precisas e, portanto, pequeno erro aleatório.
Michael R. Chernick 23/09/12
Eu estava apenas tentando apontar a possibilidade de um pequeno ruído levando a precisar de menos de 10 pontos, mesmo que a possibilidade possa ser remota.
Michael R. Chernick 23/09/12
R2
+1, boa informação, mas também vale a pena mencionar que, se seu estimador não for imparcial, você poderá ter um modelo saturado e ainda ter uma estimativa dos parâmetros, se é tudo o que precisa. Você não terá uma estimativa da variabilidade ou poderá fazer inferência. No entanto, em alguns casos em que existem muitos efeitos para estimar e dados são suficientemente difíceis de obter, modelos saturados são às vezes usados. Então, por exemplo, nesse caso, você pode obter uma estimativa da função com a quadrática com 3 pontos. Não quero dizer necessariamente que é uma coisa boa, mas esse é o limite inferior real e a razão disso.
gung - Restabelece Monica