Quando um estimador tendencioso é preferível a um imparcial?

38

É óbvio muitas vezes por que alguém prefere um estimador imparcial. Mas, existem circunstâncias em que podemos realmente preferir um estimador tendencioso a um imparcial?

Stan Shunpike
fonte
3
Relacionado: Por que o encolhimento funciona?
S. Kolassa - Restabelece Monica
12
Na verdade, não me é óbvio por que alguém prefere um estimador imparcial. O preconceito é como o bicho-papão nos livros de estatística, criando um medo desnecessário entre os estudantes de estatística. Na realidade, a abordagem teórica da informação para o aprendizado sempre leva a uma estimativa tendenciosa em pequenas amostras e é consistente no limite.
Cagdas Ozgenc 17/04/19
4
Eu tive clientes (especialmente em casos jurídicos) que preferiam fortemente estimadores tendenciosos, desde que o viés estivesse sistematicamente a seu favor!
whuber
2
A Seção 17.2 ("Estimadores não tendenciosos ") da Teoria das Probabilidades de Jaynes : A Lógica da Ciência é uma discussão muito perspicaz, com exemplos, sobre se o viés de um estimador é realmente ou não importante e por que um tendencioso pode ser preferível (em de acordo com a grande resposta de Chaconne abaixo).
Pglpm
1
Se eu puder resumir a resposta de Chaconne-Jaynes: um estimador "imparcial" pode errar à direita ou à esquerda do valor verdadeiro em quantidades iguais; um "tendencioso" pode errar mais para a direita do que para a esquerda ou vice-versa. Mas o erro do imparcial, embora simétrico, pode ser muito maior que o do tendencioso. Veja a primeira figura de Chaconne. Em muitas situações, é muito mais importante que um estimador tenha um pequeno erro, em vez de que esse erro seja simétrico.
pglpm

Respostas:

51

Sim. Frequentemente, estamos interessados ​​em minimizar o erro médio quadrático, que pode ser decomposto em variação + desvio ao quadrado . Essa é uma idéia extremamente fundamental no aprendizado de máquina e nas estatísticas em geral. Freqüentemente, vemos que um pequeno aumento no viés pode vir com uma redução suficientemente grande na variação, para que o MSE geral diminua.

Um exemplo padrão é a regressão de crista. Temos β R = ( X t X + λ I ) - 1 X t Y o qual é pressionado; mas, se X é mal condicionado, em seguida, V um r ( β ) α ( X T X ) - 1 podem ser monstruoso enquanto que V um r ( β R ) pode ser muito mais modesta.β^R=(XTX+λEu)-1XTYXVar(β^)(XTX)1Vumar(β^R)

Outro exemplo é o classificador kNN . Pense em : atribuímos um novo ponto ao seu vizinho mais próximo. Se tivermos uma tonelada de dados e apenas algumas variáveis, provavelmente podemos recuperar o verdadeiro limite de decisão e nosso classificador é imparcial; mas para qualquer caso realista, é provável que k = 1 seja muito flexível (ou seja, tenha muita variação) e, portanto, o pequeno viés não valha a pena (ou seja, o MSE é maior que os classificadores mais tendenciosos, mas menos variáveis).k=1k=1

Finalmente, aqui está uma foto. Suponha que essas são as distribuições amostrais de dois estimadores e estamos tentando estimar 0. O mais plano é imparcial, mas também muito mais variável. No geral, acho que prefiro usar o tendencioso, porque, embora em média não estejamos corretos, em qualquer instância única desse estimador estaremos mais próximos.

variação de viés

 
Atualizar

Menciono os problemas numéricos que ocorrem quando está mal condicionado e como a regressão de crista ajuda. Aqui está um exemplo.X

Estou criando uma matriz que é 4 × 3 e a terceira coluna é quase toda 0, o que significa que quase não está na classificação completa, o que significa que X T X está realmente perto de ser singular.X4×3XTX

x <- cbind(0:3, 2:5, runif(4, -.001, .001)) ## almost reduced rank

> x
     [,1] [,2]        [,3]
[1,]    0    2 0.000624715
[2,]    1    3 0.000248889
[3,]    2    4 0.000226021
[4,]    3    5 0.000795289

(xtx <- t(x) %*% x) ## the inverse of this is proportional to Var(beta.hat)

           [,1]        [,2]        [,3]
[1,] 14.0000000 26.00000000 3.08680e-03
[2,] 26.0000000 54.00000000 6.87663e-03
[3,]  0.0030868  0.00687663 1.13579e-06

eigen(xtx)$values ## all eigenvalues > 0 so it is PD, but not by much

[1] 6.68024e+01 1.19756e+00 2.26161e-07


solve(xtx) ## huge values

           [,1]        [,2]        [,3]
[1,]   0.776238   -0.458945     669.057
[2,]  -0.458945    0.352219    -885.211
[3,] 669.057303 -885.210847 4421628.936

solve(xtx + .5 * diag(3)) ## very reasonable values

             [,1]         [,2]         [,3]
[1,]  0.477024087 -0.227571147  0.000184889
[2,] -0.227571147  0.126914719 -0.000340557
[3,]  0.000184889 -0.000340557  1.999998999

Atualização 2

Como prometido, aqui está um exemplo mais completo.

Primeiro, lembre-se do objetivo de tudo isso: queremos um bom estimador. Existem muitas maneiras de definir 'bom'. Suponha que temos e que queremos para estimar μ .X1,...,Xn EuEud N(μ,σ2)μ

Digamos que decidimos que um estimador 'bom' é imparcial. Este não é o ideal, porque, embora seja verdade que o estimador é imparcial para μ , temos n pontos de dados por isso parece bobagem ignorar quase todos eles . Para tornar essa ideia mais formal, pensamos que devemos ser capazes de obter um estimador que varia menos de μ para uma dada amostra de T 1 . Isso significa que queremos um estimador com uma variação menor.T1(X1,...,Xn)=X1μnμT1

Então, talvez agora digamos que ainda queremos apenas estimadores imparciais, mas dentre todos os estimadores imparciais escolheremos aquele com a menor variação. Isso nos leva ao conceito do estimador imparcial de variância uniformemente mínima (UMVUE), um objeto de muito estudo em estatística clássica. Se quisermos apenas estimadores imparciais, escolher uma com a menor variação é uma boa idéia. No nosso exemplo, considera vs T 2 ( X 1 , . . . , X n ) = X 1 + X 2T1 eTn(X1,...,Xn)=X1+. . . +XnT2(X1,...,Xn)=X1+X22 . Novamente, todos os três são imparciais, mas têm diferentes variações:Var(T1)=σ2,Var(T2)=σ2Tn(X1,...,Xn)=X1+...+XnnVumar(T1)=σ2 , eVar(Tn)=σ2Vumar(T2)=σ22 . Paran>2Tntem a menor variação destes e é imparcial, portanto esse é o nosso estimador escolhido.Vumar(Tn)=σ2nn>2 Tn

Mas muitas vezes a imparcialidade é uma coisa estranha de se fixar tanto (veja o comentário de @Cagdas Ozgenc, por exemplo). Penso que isso se deve em parte porque geralmente não nos importamos muito em ter uma boa estimativa no caso médio, mas queremos uma boa estimativa no nosso caso em particular. Podemos quantificar esse conceito com o erro quadrático médio (MSE), que é como a distância quadrática média entre nosso estimador e o que estamos estimando. Se é um estimador de θ , então M S E ( T ) = E ( ( T - θ ) 2 ) . Como mencionei anteriormente, acontece que M STθMSE(T)=E((Tθ)2) , onde o viés é definido como B i a s ( T ) = E ( T ) - θ . Assim, podemos decidir que, em vez de UMVUEs, queremos um estimador que minimize o MSE.MSE(T)=Var(T)+Bias(T)2Bias(T)=E(T)θ

Suponha que seja imparcial. Então M S E ( T ) = V a r ( T ) = B i a s ( T ) 2 = V a r ( T ) , portanto, se considerarmos apenas estimadores imparciais, minimizar o MSE é o mesmo que escolher o UMVUE. Mas, como mostrei acima, há casos em que podemos obter um MSE ainda menor considerando vieses diferentes de zero.TMSE(T)=Var(T)=Bias(T)2=Var(T)

Em resumo, queremos minimizar . Poderíamos exigir B i a s ( T ) = 0 e escolher o melhor T entre aqueles que fazem isso, ou permitiríamos que ambos variassem. Permitir que ambos variem provavelmente nos dará uma melhor MPE, uma vez que inclui os casos imparciais. Essa idéia é o trade-off de desvio de variância que mencionei anteriormente na resposta.Var(T)+Bias(T)2Bias(T)=0T

Agora, aqui estão algumas fotos dessa troca. Nós estamos tentando estimar e nós temos cinco modelos, T 1 através T 5 . T 1 é imparcial e o viés fica mais e mais grave até T 5 . T 1 tem a maior variância e a variação fica menor e menor até T 5 . Podemos visualizar o MSE como o quadrado da distância do centro da distribuição de θ mais o quadrado da distância até o primeiro ponto de inflexão (é uma maneira de ver o SD para densidades normais, quais são). Podemos ver isso para T 1θT1T5T1T5T1T5θT1(a curva preta) a variação é tão grande que ser imparcial não ajuda: ainda há um enorme MSE. Por outro lado, para o a variância é muito menor, mas agora a tendência é grande o suficiente para que o estimador está sofrendo. Mas em algum lugar no meio existe um meio feliz, e isso é T 3 . Tem reduzida a variabilidade de um lote (em comparação com o t 1 ), mas apenas incorreu uma pequena quantidade de viés, e, portanto, tem o menor MSE.T5T3T1

VBtradeoff

Tλ(X,Y)=(XTX+λI)1XTYλTλ

jld
fonte
A imagem é a única que eu entendi. Você tem exemplos mais fáceis que correspondem à imagem? Quais estimadores teriam essas formas?
18716 Stan Stansthebike
Vou postar um exemplo mais detalhado amanhã.
jld
@StanShunpike Adicionei uma atualização longa. Por favor, deixe-me saber se isso ajuda a esclarecer as coisas.
JLD
Provavelmente, o maior esforço que alguém já fez para responder a uma de minhas perguntas. Muito obrigado.
21816 Stan Shunpike
1
@olivia Eu não consigo pensar em um único caso não trivial em que o viés seja o único critério com o qual me preocupo (embora possa haver casos que simplesmente não conheço!), embora haja momentos em que o viés é conhecido por ser um fator dominante (considere REML, por exemplo, onde o viés é grave o suficiente para valer a pena fazer alguma coisa). Acho que não importa o que você esteja fazendo, você só quer que seu estimador esteja próximo da verdade, e é isso que a MSE faz.
jld
2

Duas razões vêm à mente, além da explicação MSE acima (a resposta geralmente aceita à pergunta):

  • Gestão de risco
  • Teste eficiente

T(X)=X¯nX¯nϵθ0θnno limite da bola, torna-se um teste inconsistente, nunca se sabe o que está acontecendo e o risco explode.

Γ(α,βn)

Tθ(X)=XiI(Xi<θ)/I(Xi<θ)
sistematicamente lança fora os pontos de alta alavancagem.

Testes eficientes significam que você não estima o que está interessado, mas sim uma aproximação, porque isso fornece um teste mais poderoso. O melhor exemplo que posso pensar aqui é a regressão logística. As pessoas sempreconfundir regressão logística com regressão de risco relativo. Por exemplo, uma razão de chances de 1,6 para câncer comparando fumantes a não fumantes NÃO significa que "os fumantes tiveram um risco 1,6 maior de câncer". BZZT errado. Essa é uma taxa de risco. Eles tecnicamente tinham uma probabilidade de 1,6 vezes o resultado (lembrete: chances = probabilidade / (1 probabilidade)). No entanto, para eventos raros, o odds ratio aproxima-se do risco. Existe uma regressão de risco relativo, mas há muitos problemas com a convergência e não é tão poderoso quanto a regressão logística. Portanto, relatamos o OR como uma estimativa tendenciosa do RR (para eventos raros) e calculamos ICs e valores de p mais eficientes.

AdamO
fonte