Modelo com complicações

7

Um modelo de regressão linear regular é , onde são coeficientes desconhecidos e \ varepsilon é ruído gaussiano com média zero e variação constante. Estou construindo um modelo em que o termo de erro \ varepsilon tem duas complicações:y=cx+εcεε

  1. Sua distribuição não é normal.
  2. A variação de erro não é constante.

Sei que a primeira questão pode ser abordada por alguns modelos de regressão linear, enquanto a segunda questão pode ser resolvida por regressão linear (por exemplo, Tofallis, C (2008), "Regressão percentual dos mínimos quadrados"). Mas nunca vi um modelo que resolvesse os dois problemas ao mesmo tempo.

Shuwong
fonte
Veja estatísticas robustas .
usεr11852
Se você tem heterocedasticidade, não pode julgar quão pesadas as caudas da distribuição condicional são diretamente do gráfico QQ, uma vez que a heterocedasticidade será confundida com isso (por exemplo, a heterocedasticidade é suficiente para fazer com que o gráfico QQ de uma distribuição de cauda leve pareça pesado. um atado)
Glen_b -Reinstate Monica

Respostas:

3

A estimativa robusta de erros baseada em sanduíche lida com heterocedasticidade e distribuição de erros não normal de forma assintotica . Isso também significa que você recebe uma inferência aproximadamente válida em amostras relativamente.

Uma crítica pode ser que um método que seja tão robusto deva ser de baixa potência. Geralmente, não é tão verdadeiro quanto se pensa. Mas ... você poderia fazer suposições mais fracas ou diferentes sobre a distribuição dos erros? Por exemplo, em vez de serem normais, talvez eles possam vir de uma família geral de erros, inclusive da distribuição normal, como uma família de distribuição t ou uma família normal de 3 parâmetros. Isso obscurece as linhas entre a inferência clássica, que em amostras pequenas se baseia em fortes suposições distributivas e a estimativa robusta de erros, que é praticamente à prova de balas em amostras relativamente grandes.

Um exemplo de embaçar essas linhas para uma abordagem híbrida é maximizar uma probabilidade condicional que permite distribuições de erros platykurtic como uma distribuição com graus de liberdade relativamente baixos. Para o caso da heterocedasticidade, é possível inspecionar variogramas para modelar os erros em função da média, como em uma relação de média e variância linear (considere um Poisson GLM com um link de identidade).t

AdamO
fonte
3

Tanto a heterocedasticidade quanto a cauda pesada podem ser consideradas violações dos pressupostos distributivos de um modelo linear padrão. Se, no entanto, a distribuição é simétrica, e a relação é entre e é retilínea, seu modelo não deve ser tendencioso. Em vez disso, estimativas e inferências de intervalo seriam incorretas. Com dados suficientes, eles podem estar aproximadamente certos de qualquer maneira. Infelizmente, é difícil saber quantos dados seriam 'suficientes' e a quantidade pode ser proibitivamente grande sem a sua percepção, de um jeito ou de outro. Portanto, você precisa de métodos que não confiem nas suposições distributivas padrão. As sugestões do @ AdamO são viáveis. Duas abordagens adicionais vêm à mente: xy

  1. Você pode inicializar seu modelo para obter melhores intervalos de confiança e valores-p. A vantagem aqui é que seu modelo é similar (principalmente no que diz respeito à interpretabilidade). As desvantagens são que você precisa de dados suficientes para representar adequadamente a população e isso provavelmente exige que você escreva o código original (ou seja, talvez não haja rotinas convenientes).
  2. O método final de regressão sem distribuição é usar regressão logística ordinal . Os modelos ordinais não fazem suposições sobre a distribuição condicional, eles exigem apenas que você possa alegar, digamos, que um é um . Isso não é muito restritivo. A vantagem é a robustez considerável, e haverá funções convenientes para isso no seu software de escolha. A desvantagem é que os modelos de OLR tendem a ser difíceis de interpretar. 7>6
- Reinstate Monica
fonte
Não me lembro de quem inventou a linguagem, mas a estimativa de erro sanduíche foi chamada de inicialização linear aproximada. Eles são supostamente assintoticamente consistentes para a mesma coisa! Mas não posso dizer mais sobre por que ou quem estabeleceu isso está correto.
AdamO 30/09/16
@ Adamo, não estou surpreso que eles sejam assintoticamente consistentes. Uma pergunta interessante é como eles se comparam com amostras moderadas e diferentes irregularidades de distribuição.
gung - Restabelece Monica