Estimei um modelo linear robusto R
com pesos MM, usando o rlm()
pacote MASS. `R`` não fornece um valor de para o modelo, mas eu gostaria de ter um se for uma quantidade significativa. Também estou interessado em saber se existe algum significado em ter um valor que pesa a variação total e residual da mesma maneira que as observações foram ponderadas na regressão robusta. Meu pensamento geral é que, se, para os propósitos da regressão, estivermos essencialmente com os pesos, dando a algumas das estimativas menos influência, porque são de alguma maneira discrepantes, então talvez, com o objetivo de calcular , também devamos dar essas mesmas estimativas menos influência?R 2 r 2
Eu escrevi duas funções simples para o e o ponderado , eles estão abaixo. Também incluí os resultados da execução dessas funções para o meu modelo, chamado HI9. EDIT: Encontrei a página da web de Adelle Coster da UNSW que fornece uma fórmula que inclui o vetor de pesos no cálculo do cálculo de ambos e da mesma forma que eu fiz, e solicitei uma referência mais formal: http: //web.maths. unsw.edu.au/~adelle/Garvan/Assays/GoodnessOfFit.html (ainda está procurando ajuda da Cross Validated sobre como interpretar esse ponderado ).R 2 r 2R2
SSe
SSt
#I used this function to calculate a basic r-squared from the robust linear model
r2 <- function(x){
+ SSe <- sum((x$resid)^2);
+ observed <- x$resid+x$fitted;
+ SSt <- sum((observed-mean(observed))^2);
+ value <- 1-SSe/SSt;
+ return(value);
+ }
r2(HI9)
[1] 0.2061147
#I used this function to calculate a weighted r-squared from the robust linear model
> r2ww <- function(x){
+ SSe <- sum((x$w*x$resid)^2); #the residual sum of squares is weighted
+ observed <- x$resid+x$fitted;
+ SSt <- sum((x$w*(observed-mean(observed)))^2); #the total sum of squares is weighted
+ value <- 1-SSe/SSt;
+ return(value);
+ }
> r2ww(HI9)
[1] 0.7716264
Obrigado a quem gasta tempo respondendo a isso. Aceite minhas desculpas se já houver alguma referência muito boa sobre isso que eu tenha perdido, ou se meu código acima for difícil de ler (eu não sou um cara de código).
Respostas:
A resposta a seguir é baseada em: (1) minha interpretação de Willett e Singer (1988) Outra nota de advertência sobre o quadrado-R: é usado na análise de regressão ponderada de mínimos quadrados. O estatístico americano. 42 (3) pp236-238, e (2) a premissa de que a regressão linear robusta é essencialmente regressão de mínimos quadrados ponderados com os pesos estimados por um processo iterativo.
A fórmula que dei na pergunta para r2w precisa de uma pequena correção para corresponder à equação 4 em Willet e Singer (1988) para r2wls: o cálculo de SSt também deve usar uma média ponderada:
Qual é o significado desse quadrado r corrigido (corrigido)? Willett e Singer interpretam como: "o coeficiente de determinação no conjunto de dados transformado [ponderado]. É uma medida da proporção da variação no Y ponderado que pode ser explicada pelo X ponderado e é a quantidade que é produzida como R2 pelos principais pacotes estatísticos de computador quando uma regressão WLS é executada ".
É significativo como uma medida da bondade do ajuste? Isso depende de como é apresentado e interpretado. Willett e Singer advertem que é tipicamente um pouco maior do que o quadrado obtido por r obtido na regressão de mínimos quadrados ordinários, e o valor alto incentiva a exibição proeminente ... mas essa exibição pode ser enganosa se for interpretada no sentido convencional de r -squared (como a proporção de não ponderadavariação explicada por um modelo). Willett e Singer propõem que uma alternativa menos "enganosa" é pseudoR2wls (sua equação 7), que é equivalente à minha função r2 na pergunta original. Em geral, Willett e Singer também alertam que não é bom confiar em qualquer r2 (até mesmo em seus pseudor2wls) como uma única medida da qualidade do ajuste. Apesar dessas precauções, toda a premissa de regressão robusta é que alguns casos são julgados 'não tão bons' e não contam tanto no ajuste do modelo, e pode ser bom refletir isso em parte do processo de avaliação do modelo. O quadrado r ponderado descrito pode ser uma boa medida da qualidade do ajuste - desde que a interpretação correta seja claramente apresentada na apresentação e não seja considerada a única avaliação da qualidade do ajuste.
fonte
@CraigMilligan. Não deveria:
sum(x$w*observed)/sum(x$w)
weighted.mean(observed,x$w)
Algo assim:
fonte