Estou escrevendo um programa para avaliar imóveis e realmente não entendo as diferenças entre alguns modelos de regressão robustos, é por isso que não sei qual escolher.
Eu tentei lmrob
, ltsReg
e rlm
. para o mesmo conjunto de dados, todos os três métodos forneceram valores diferentes para os coeficientes.
Eu pensei que o melhor é usar ltsReg
, porque, summary(ltsReg())
fornece informações sobre R-squared
e p-values
e isso vai me ajudar a decidir se sobre aceitar ou rejeitar o modelo.
Você acha que ltsReg
é uma boa escolha?
EDIT: Acabei de ler nas Estatísticas de qualidade do ajuste que o quadrado R ajustado é geralmente o melhor indicador de ajuste da qualidade
r
regression
p-value
r-squared
Paulo
fonte
fonte
Respostas:
Na notação que utilizarei, será o número de variáveis de design (incluindo o termo constante), n o número de observações com n ≥ 2 p + 1 (se essa última condição não for atendida, o pacote não teria retornado um valor ajuste, mas um erro, então suponho que ele seja atendido). por o vetor de coeficientes estimado por FLTS ( ) e os coeficientes estimados por MM ( ). Também vou escrever:p n n≥2p+1 β HHβ^FLTS β^MM
ltsReg
lmrob
(esses são os resíduos quadráticos, não os padronizados!)
A1/n n 1/(p+1) p p+1
rlm
função se encaixa em uma estimativa 'M' de regressão e, como a proposta de @Frank Harrell feita nos comentários de sua pergunta, não é robusta para discrepâncias no espaço de design. A regressão ordinal tem um ponto de ruptura (a proporção de seus dados que precisa ser substituída por valores discrepantes para extrair os coeficientes ajustados para valores arbitrários) de essencialmente o que significa que um único discrepante (independentemente de !) É suficiente para tornar o ajuste sem sentido . Para estimativas de regressão M (por exemplo, regressão Huber M), o ponto de ruptura é essencialmente . Isso é um pouco mais alto, mas na prática ainda é desconfortavelmente próximo de 0 (porque muitas vezes será grande). A única conclusão que pode ser extraída den 1 / ( p + 1 ) p p + 1rlm
encontrar um ajuste diferente dos outros dois métodos é que ele foi influenciado por outliers de design e que deve haver mais de deles em seu conjunto de dados.Por outro lado, os outros dois algoritmos são muito mais robustos: seu ponto de ruptura está abaixo de e, o que é mais importante, não diminui à medida que aumenta. Ao ajustar um modelo linear usando um método robusto, você assume que pelo menos observações em seus dados não são contaminadas. A tarefa desses dois algoritmos é encontrar essas observações e ajustá-las o melhor possível. Mais precisamente, se denotarmos:P h = ⌊ ( n + p + 1 ) / 2 ⌋ + 11/2 p h=⌊(n+p+1)/2⌋+1
(onde é o quantil do vetor )qh/n(r2i(β^MM)) h/n r2i(β^MM)
então ( ) tenta ajustar as observações com os índices em ( ).β^MM β^FLTS HMM HFLTS
O fato de haver grandes diferenças entre e indica que os dois algoritmos não identificam o mesmo conjunto de observações que os outliers. Isso significa que pelo menos um deles é influenciado pelos outliers. Nesse caso, usar o (ajustado) ou qualquer uma das estatísticas de um dos dois ajustes para decidir qual usar, embora intuitivo, é uma péssima idéia: ajustes contaminados geralmente têm resíduos menores do que os limpos (mas desde que o conhecimento de por esse motivo, em primeiro lugar, usamos estatísticas robustas, presumo que o OP esteja ciente desse fato e que não precise me aprofundar nisso.β^FLTS β^MM R2
Os dois ajustes robustos dão resultados conflitantes e a pergunta é qual é a correta? Uma maneira de resolver isso é considerar o conjunto:
porque , . Além disso, se ou estão livres de , o mesmo ocorre com . A solução que proponho explora esse fato. Calcular:h≥[n/2] #{H+}≥p HMM HFLTS H+
Por exemplo, se , então, se encaixa melhor nas boas observações que e, portanto, confio em mais. E vice versa.β F L T S β H H β F L T SD(H+,β^FLTS,β^MM)<0 β^FLTS β^MM β^FLTS
fonte