Quando os mínimos quadrados seriam uma má ideia?

11

Se eu tiver um modelo de regressão: onde e ,

Y=Xβ+ε
V[ε]=IdRn×nE[ε]=(0,,0)

quando o uso de , o estimador ordinário de mínimos quadrados de , seria uma má escolha para um estimador?βOLSβ

Estou tentando descobrir um exemplo em que os mínimos quadrados funcionam mal. Então, eu estou procurando uma distribuição dos erros que satisfaçam as hipóteses anteriores, mas produzam resultados ruins. Se a família da distribuição fosse determinada pela média e variação, isso seria ótimo. Caso contrário, tudo bem também.

Sei que "maus resultados" são um pouco vagos, mas acho que a ideia é compreensível.

Apenas para evitar confusões, sei que os mínimos quadrados não são ótimos e que existem melhores estimadores como a regressão de crista. Mas não é isso que pretendo. Eu quero um exemplo onde os mínimos quadrados não seriam naturais.

Eu posso imaginar coisas como, o vetor de erro vive em uma região não convexa de , mas não tenho certeza disso.ϵRn

Edit 1: Como uma idéia para ajudar uma resposta (que não consigo entender como ir além). está AZUL. Portanto, pode ajudar a pensar quando um estimador linear imparcial não seria uma boa ideia.βOLS

Edit 2: Como Brian apontou, se estiver com mau condicionamento, então é uma má idéia porque a variação é muito grande e a Regressão de Ridge deve ser usada. Estou mais interessado em saber qual distribuição deve para fazer com que os mínimos quadrados funcionem mal.XXβOLSε

βOLSβ+(XX)1Xε Existe uma distribuição com matriz de média e variância de identidade zero para que torna esse estimador não eficiente?ε

Manuel
fonte
11
Não quero parecer duro, mas não tenho muita certeza do que você quer. Há muitas maneiras pelas quais algo pode ser uma má escolha. Normalmente, avaliamos estimadores em termos de tendência , variação , robustez e eficiência . Por exemplo, como você observa, o estimador OLS é AZUL .
gung - Restabelece Monica
11
OTOH, a variância pode ser tão grande que é inútil, tornando preferível um estimador de menor variância, mas tendencioso, como crista. Outro exemplo é que o OLS utiliza ao máximo todas as informações em seus dados, mas isso o torna suscetível a discrepâncias. Existem muitas funções alternativas de perda que são mais robustas, enquanto tentamos manter a eficiência. Pode ser mais claro se você poderia reorganizar sua pergunta em termos como estes. Não sei o que significa para um estimador ser "não natural".
gung - Restabelece Monica
Obrigado pelo seu comentário, isso me fez perceber a ambiguidade da pergunta. Espero que esteja mais claro agora
Manuel
Veja a regressão nesta resposta . Resumindo: outliers influentes podem ser um problema.
Glen_b -Replica Monica

Respostas:

8

A resposta de Brian Borchers é bastante boa - dados que contêm valores estranhos estranhos geralmente não são bem analisados ​​pelo OLS. Vou apenas expandir isso adicionando uma imagem, um Monte Carlo e algum Rcódigo.

Considere um modelo de regressão muito simples:

Yi=β1xi+ϵi ϵi={N(0,0.04)w.p.0.99931w.p.0.000531w.p.0.0005

Este modelo está em conformidade com a sua configuração com um coeficiente de inclinação de 1.

O gráfico anexado mostra um conjunto de dados composto por 100 observações neste modelo, com a variável x executando de 0 a 1. No conjunto de dados plotado, há um empate no erro que resulta em um valor externo (+31 neste caso) . Também são plotadas a linha de regressão do OLS em azul e a linha de regressão de desvios menos absolutos em vermelho. Observe como o OLS, mas não o LAD, é distorcido pelo discrepante:

OLS vs LAD com um outlier

Podemos verificar isso fazendo um Monte Carlo. No Monte Carlo, eu gero um conjunto de dados de 100 observações usando o mesmo um com a distribuição acima 10.000 vezes. Nessas 10.000 repetições, não teremos discrepâncias na grande maioria. Porém, em alguns casos, obteremos um erro, e isso estragará o OLS, mas não o LAD a cada vez. O código abaixo executa o Monte Carlo. Aqui estão os resultados para os coeficientes de inclinação:ϵxϵR

               Mean   Std Dev   Minimum   Maximum 
Slope by OLS   1.00      0.34     -1.76      3.89 
Slope by LAD   1.00      0.09      0.66      1.36

O OLS e o LAD produzem estimadores imparciais (as inclinações são de 1,00 em média ao longo das 10.000 repetições). O OLS produz um estimador com um desvio padrão muito maior, porém, 0,34 vs 0,09. Portanto, o OLS não é o melhor / mais eficiente entre os estimadores imparciais, aqui. Ainda é AZUL, é claro, mas o LAD não é linear, então não há contradição. Observe os erros selvagens que o OLS pode cometer nas colunas Mín e Máx. Não é tão LAD.

Aqui está o código R para o gráfico e o Monte Carlo:

# This program written in response to a Cross Validated question
# http://stats.stackexchange.com/questions/82864/when-would-least-squares-be-a-bad-idea

# The program runs a monte carlo to demonstrate that, in the presence of outliers,
# OLS may be a poor estimation method, even though it is BLUE.


library(quantreg)
library(plyr)

# Make a single 100 obs linear regression dataset with unusual error distribution
# Naturally, I played around with the seed to get a dataset which has one outlier
# data point.

set.seed(34543)

# First generate the unusual error term, a mixture of three components
e <- sqrt(0.04)*rnorm(100)
mixture <- runif(100)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31

summary(mixture)
summary(e)

# Regression model with beta=1
x <- 1:100 / 100
y <- x + e

# ols regression run on this dataset
reg1 <- lm(y~x)
summary(reg1)

# least absolute deviations run on this dataset
reg2 <- rq(y~x)
summary(reg2)

# plot, noticing how much the outlier effects ols and how little 
# it effects lad
plot(y~x)
abline(reg1,col="blue",lwd=2)
abline(reg2,col="red",lwd=2)


# Let's do a little Monte Carlo, evaluating the estimator of the slope.
# 10,000 replications, each of a dataset with 100 observations
# To do this, I make a y vector and an x vector each one 1,000,000
# observations tall.  The replications are groups of 100 in the data frame,
# so replication 1 is elements 1,2,...,100 in the data frame and replication
# 2 is 101,102,...,200.  Etc.
set.seed(2345432)
e <- sqrt(0.04)*rnorm(1000000)
mixture <- runif(1000000)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31
var(e)
sum(e > 30)
sum(e < -30)
rm(mixture)

x <- rep(1:100 / 100, times=10000)
y <- x + e
replication <- trunc(0:999999 / 100) + 1
mc.df <- data.frame(y,x,replication)

ols.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(lm(y~x,data=df))[2])
names(ols.slopes)[2] <- "estimate"

lad.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(rq(y~x,data=df))[2])
names(lad.slopes)[2] <- "estimate"

summary(ols.slopes)
sd(ols.slopes$estimate)
summary(lad.slopes)
sd(lad.slopes$estimate)
Conta
fonte
@ Manuel Obrigado. Eu peguei um erro no meu programa R --- havia um 0,04 onde deveria haver um sqrt (0,04). Não mudou o impulso da resposta. Isso fez uma pequena diferença nos resultados. No entanto, se você copiou o código antes, deve copiá-lo novamente agora.
Bill
7

Um exemplo seria onde você não deseja estimar a média. Isso surgiu no trabalho que eu costumava fazer, onde estávamos estimando o número de parceiros sexuais que as pessoas tinham, como parte da modelagem da disseminação do HIV / AIDS. Havia mais interesse nas caudas da distribuição: quais pessoas têm muitos parceiros?

Nesse caso, você pode querer regressão quantílica; um método subutilizado, na minha opinião.

Peter Flom - Restabelece Monica
fonte
o que você quer dizer com não querer estimar a média? Estou considerando como um parâmetro fixo em uma abordagem freqüentista, se é disso que você está falando. β
Manuel
Ou você quis dizer, a média de ? Y
Manuel
Sim, eu quis dizer a média de Y. É isso que a regressão OLS faz.
Peter Flom - Restabelece Monica
Ótimo ponto, + 1. Apenas considere a expressão e calcule seu mínimo. É o ponto médio entre a e b. Este é o contraste com o função de erro, aka regressão robusta L 1(xa)2+(xb)2L1
jpmuc
6

Se é uma matriz mal condicionada ou exatamente singular, seu estimador de mínimos quadrados será extremamente instável e inútil na prática. X

Se você limitar sua atenção à distribuição de , lembre-se de que o teorema de Gauss-Markov garante que a solução dos mínimos quadrados seja um estimador imparcial de variância mínima. ϵ

No entanto, se a distribuição de for suficientemente extrema, é possível construir exemplos em que a distribuição das estimativas tenha propriedades ruins (em particular, a possibilidade (embora com baixa probabilidade) de erros extremamente grandes em ), apesar de mínima. variação. βϵβ

Brian Borchers
fonte
ε
11
Além disso, Gauss-Markov garante que os mínimos quadrados sejam um estimador imparcial de variância mínima entre lineares. Pode ser que estimadores lineares não sejam razoáveis ​​para algum tipo de distribuição. É isso que eu quero entender.
Manuel
ϵi=0ϵi=1000.00005ϵi=1000.00005X=Iβϵ
X=1β=0β^
Eu acredito que seu segundo comentário é o que eu estou procurando. Apenas me incomoda a baixa probabilidade de acontecer. Também a partir desse exemplo, é bastante claro como criar um estimador melhor ao conhecer a distribuição dos erros.
Manuel