O erro quadrático médio é usado para avaliar a superioridade relativa de um estimador em relação a outro?

13

Suponha que temos dois estimadores e α 2 para algum parâmetro x . Para determinar qual estimador é "melhor", analisamos o MSE (erro médio quadrático)? Em outras palavras, analisamos M S E = β 2 + σ 2 onde β é o viés do estimador e σ 2 é a variação do estimador? Quem tem um MSE maior é um estimador pior?α1α2x

MSE=β2+σ2
βσ2
Damien
fonte

Respostas:

10

Se você tiver dois estimadores concorrentes q 1 e θ 2 , ou não M S E ( θ 1 ) < M S E ( θ 2 ) diz que θ 1 é o melhor estimador depende inteiramente da sua definição de "melhor". Por exemplo, se você está comparando estimadores imparciais e pelo "melhor" quer dizer tem variação menor, então, sim, isto implicaria que θ 1 é melhor. M S Eθ^1θ^2

MSE(θ^1)<MSE(θ^2)
θ^1θ^1MSEé um critério popular devido à sua conexão com os Mínimos Quadrados e a probabilidade logarítmica gaussiana, mas, como muitos critérios estatísticos, deve-se advertir o uso de cegamente como uma medida da qualidade do estimador sem prestar atenção à aplicação.MSE

Há certas situações em que a escolha de um estimador para minimizar pode não ser uma coisa particularmente sensata a ser feita. Dois cenários vêm à mente:MSE

  • Se houver discrepâncias muito grandes em um conjunto de dados, elas podem afetar drasticamente o MSE e, portanto, o estimador que minimiza o MSE pode ser influenciado de maneira indevida por esses discrepantes. Em tais situações, o fato de um estimador minimizar o MSE não conta muito, pois, se você removeu os valores extremos, pode obter uma estimativa totalmente diferente. Nesse sentido, o MSE não é "robusto" para discrepantes. No contexto da regressão, esse fato motivou o Estimador M de Huber (que discuto nesta resposta), que minimiza uma função de critério diferente (que é uma mistura entre erro ao quadrado e erro absoluto) quando há erros de cauda longa .

  • Se você estiver estimando um parâmetro delimitado, comparar s pode não ser apropriado, pois penaliza a subestimação e a subestimação de maneira diferente nesse caso. Por exemplo, suponha que você esteja estimando uma variação, σ 2 . Então, se você subestima conscientemente a quantidade, seu M S E pode ser no máximo σ 4 , enquanto a superestimação pode produzir um M S E que excede em muito σ 4 , talvez até em uma quantidade ilimitada.MSEσ2MSEσ4MSEσ4

Para tornar essas desvantagens mais claras, darei um exemplo concreto de quando, devido a esses problemas, o pode não ser uma medida apropriada da qualidade do estimador.MSE

Suponha que você tenha uma amostra de uma distribuição t com ν > 2 graus de liberdade e estamos tentando estimar a variância, que é ν / ( ν - 2 ) . Considere dois estimadores concorrentes: q 1 : t h e u n b i um s e d s um m p l e v um r iX1,...,Xntν>2ν/(ν2) e θ 2 = 0 , r e g a r d L e s s o f t h e d um t um Claramente H S E ( θ 2 ) = ν dois

θ^1:the vocênbEuumased sumampeue vumarEuumance
θ^2=0 0, regumardeuess of the dumatuma
e é um facto queHSE( θ 1)={se  ν 4MSE(θ^2)=ν2(ν-2)2que pode ser derivado usandoo fato discutido neste encadeamentoeas propriedades dadistribuiçãot. Assim, o estimador ingênuo supera em termos deMSE,independentemente do tamanho da amostra sempre queν<4, o que é bastante desconcertante. Ele também supera quando(2
MSE(θ^1)={if ν4ν2(ν2)2(2n1+6n(ν4))if ν>4.
tMSEν<4mas isso é relevante apenas para tamanhos de amostra muito pequenos. O acima acontece por causa da natureza de cauda longa datdistribuição com pequenos graus de liberdade, o que torna θ 2propenso para valores muito grandes e oMSEpenaliza fortemente para a sobreavaliação, enquanto θ 1não tem este problema.(2n1+6n(ν4))>1tθ^2MSEθ^1

MSEMSEθ^

S(θ^)=θ^ν/(ν2)1log(θ^ν/(ν2))

S(θ^1)=

Macro
fonte
(+1) Boa discussão. Para ser justo, provavelmente deve ser apontado que argumentos semelhantes podem ser feitos a favor e contra outros critérios (outras funções de perda) também.
MånsT
2
Normalmente, avalia-se os estimadores observando suas funções de risco, que plotam a perda esperada versus os parâmetros. Aqui, ao fixar os parâmetros, você pode ter produzido uma análise enganosa. Afinal, é sempre o caso de um estimador estúpido (constante, ignorante em termos de dados) produzir uma perda esperada muito baixa: basta configurá-lo como o parâmetro correto! Isso me deixa imaginando o que a simulação realmente mostrou aqui.
whuber
@ Whuber, eu modifiquei esta resposta para dar o exemplo analiticamente, o que talvez fique mais claro. Também ofereci uma função de perda alternativa que pode ser mais apropriada.
Macro
ν
2

MSE corresponde ao risco (perda esperada) da função de perda de erro ao quadrado eu(αEu)=(αEu-α)2. A função de perda de erro ao quadrado é muito popular, mas apenas uma opção dentre muitas. O procedimento que você descreve está correto sob perda de erro ao quadrado; a questão é se isso é apropriado para o seu problema ou não.

JMS
fonte
2

Porque a função f(x)=x2é diferenciável, facilita encontrar o MSE mínimo tanto do ponto de vista teórico quanto numérico. Por exemplo, nos mínimos quadrados comuns, você pode resolver a explicitação da inclinação ajustada e interceptar. Do ponto de vista numérico, você tem solucionadores mais eficientes quando também possui uma derivada.

O erro quadrático médio geralmente supera os valores extremos na minha opinião. É por isso que geralmente é mais robusto usar o erro absoluto médio, ou seja, usarf(x)=|x|como sua função de erro. No entanto, como não é diferenciável, torna as soluções mais difíceis de trabalhar.

MSE é provavelmente uma boa escolha se os termos de erro forem normalmente distribuídos. Se eles têm caudas mais gordas, é preferível uma escolha mais robusta, como valor absoluto.

aprokopiw
fonte
0

Em Case & Berger Statistical Inference 2ª página, página 332, a MSE penaliza igualmente por superestimação e subestimação, o que é bom no caso de localização. No caso da escala, no entanto, 0 é um limite inferior natural, portanto, o problema de estimativa não é simétrico. O uso de MSE nesse caso tende a perdoar a subestimação.

Convém verificar qual estimador atende às propriedades UMVUE, o que significa usar o limite inferior Cramer-Rao. P. 341

Tu.2
fonte