Um modelo de regressão linear regular é , onde são coeficientes desconhecidos e \ varepsilon é ruído gaussiano com média zero e variação constante. Estou construindo um modelo em que o termo de erro \ varepsilon tem duas complicações:
- Sua distribuição não é normal.
- A variação de erro não é constante.
Sei que a primeira questão pode ser abordada por alguns modelos de regressão linear, enquanto a segunda questão pode ser resolvida por regressão linear (por exemplo, Tofallis, C (2008), "Regressão percentual dos mínimos quadrados"). Mas nunca vi um modelo que resolvesse os dois problemas ao mesmo tempo.
regression
Shuwong
fonte
fonte
Respostas:
A estimativa robusta de erros baseada em sanduíche lida com heterocedasticidade e distribuição de erros não normal de forma assintotica . Isso também significa que você recebe uma inferência aproximadamente válida em amostras relativamente.
Uma crítica pode ser que um método que seja tão robusto deva ser de baixa potência. Geralmente, não é tão verdadeiro quanto se pensa. Mas ... você poderia fazer suposições mais fracas ou diferentes sobre a distribuição dos erros? Por exemplo, em vez de serem normais, talvez eles possam vir de uma família geral de erros, inclusive da distribuição normal, como uma família de distribuição t ou uma família normal de 3 parâmetros. Isso obscurece as linhas entre a inferência clássica, que em amostras pequenas se baseia em fortes suposições distributivas e a estimativa robusta de erros, que é praticamente à prova de balas em amostras relativamente grandes.
Um exemplo de embaçar essas linhas para uma abordagem híbrida é maximizar uma probabilidade condicional que permite distribuições de erros platykurtic como uma distribuição com graus de liberdade relativamente baixos. Para o caso da heterocedasticidade, é possível inspecionar variogramas para modelar os erros em função da média, como em uma relação de média e variância linear (considere um Poisson GLM com um link de identidade).t
fonte
Tanto a heterocedasticidade quanto a cauda pesada podem ser consideradas violações dos pressupostos distributivos de um modelo linear padrão. Se, no entanto, a distribuição é simétrica, e a relação é entre e é retilínea, seu modelo não deve ser tendencioso. Em vez disso, estimativas e inferências de intervalo seriam incorretas. Com dados suficientes, eles podem estar aproximadamente certos de qualquer maneira. Infelizmente, é difícil saber quantos dados seriam 'suficientes' e a quantidade pode ser proibitivamente grande sem a sua percepção, de um jeito ou de outro. Portanto, você precisa de métodos que não confiem nas suposições distributivas padrão. As sugestões do @ AdamO são viáveis. Duas abordagens adicionais vêm à mente:x y
fonte