Se você tiver dois estimadores concorrentes q 1 e θ 2 , ou não M S E ( θ 1 ) < M S E ( θ 2 ) diz que θ 1 é o melhor estimador depende inteiramente da sua definição de "melhor". Por exemplo, se você está comparando estimadores imparciais e pelo "melhor" quer dizer tem variação menor, então, sim, isto implicaria que θ 1 é melhor. M S Eθ^1θ^2
MSE(θ^1)<MSE(θ^2)
θ^1θ^1MSEé um critério popular devido à sua conexão com os Mínimos Quadrados e a probabilidade logarítmica gaussiana, mas, como muitos critérios estatísticos, deve-se advertir o uso de
cegamente como uma medida da qualidade do estimador sem prestar atenção à aplicação.
MSE
Há certas situações em que a escolha de um estimador para minimizar pode não ser uma coisa particularmente sensata a ser feita. Dois cenários vêm à mente:MSE
Se houver discrepâncias muito grandes em um conjunto de dados, elas podem afetar drasticamente o MSE e, portanto, o estimador que minimiza o MSE pode ser influenciado de maneira indevida por esses discrepantes. Em tais situações, o fato de um estimador minimizar o MSE não conta muito, pois, se você removeu os valores extremos, pode obter uma estimativa totalmente diferente. Nesse sentido, o MSE não é "robusto" para discrepantes. No contexto da regressão, esse fato motivou o Estimador M de Huber (que discuto nesta resposta), que minimiza uma função de critério diferente (que é uma mistura entre erro ao quadrado e erro absoluto) quando há erros de cauda longa .
Se você estiver estimando um parâmetro delimitado, comparar s pode não ser apropriado, pois penaliza a subestimação e a subestimação de maneira diferente nesse caso. Por exemplo, suponha que você esteja estimando uma variação, σ 2 . Então, se você subestima conscientemente a quantidade, seu M S E pode ser no máximo σ 4 , enquanto a superestimação pode produzir um M S E que excede em muito σ 4 , talvez até em uma quantidade ilimitada.MSEσ2MSEσ4MSEσ4
Para tornar essas desvantagens mais claras, darei um exemplo concreto de quando, devido a esses problemas, o pode não ser uma medida apropriada da qualidade do estimador.MSE
Suponha que você tenha uma amostra de uma distribuição t com ν > 2 graus de liberdade e estamos tentando estimar a variância, que é ν / ( ν - 2 ) . Considere dois estimadores concorrentes: q 1 : t h e u n b i um s e d s um m p l e v um r iX1,...,Xntν>2ν/(ν−2) e θ 2 = 0 , r e g a r d L e s s o f t h e d um t um Claramente H S E ( θ 2 ) = ν dois
θ^1: T h e u n b i um s e d s um m p l e v um r i a n c e
θ^2= 0 , r e g a r d L e s s o f t h e d um t um
e é um facto que
HSE( θ 1)={ ∞ se ν ≤ 4M S E ( θ^2) = ν2( ν- 2 )2que pode ser derivado usando
o fato discutido neste encadeamentoe
as propriedades dadistribuiçãot.
Assim, o estimador ingênuo supera em termos deMSE,independentemente do tamanho da amostra sempre queν<4, o que é bastante desconcertante. Ele também supera quando
(2M S E ( θ^1) = { ∞ν2( ν- 2 )2( 2n - 1+6n(ν−4))if ν≤4if ν>4.
tMSEν<4mas isso é relevante apenas para tamanhos de amostra muito pequenos. O acima acontece por causa da natureza de cauda longa da
tdistribuição com pequenos graus de liberdade, o que torna
θ 2propenso para valores muito grandes e o
MSEpenaliza fortemente para a sobreavaliação, enquanto
θ 1não tem este problema.
(2n−1+6n(ν−4))>1tθ^2MSEθ^1
MSEMSEθ^
S(θ^)=θ^ν/(ν−2)−1−log(θ^ν/(ν−2))
S(θ^1)=∞
MSE corresponde ao risco (perda esperada) da função de perda de erro ao quadradoL ( αEu) = ( αEu- α )2 . A função de perda de erro ao quadrado é muito popular, mas apenas uma opção dentre muitas. O procedimento que você descreve está correto sob perda de erro ao quadrado; a questão é se isso é apropriado para o seu problema ou não.
fonte
Porque a funçãof( x ) = x2 é diferenciável, facilita encontrar o MSE mínimo tanto do ponto de vista teórico quanto numérico. Por exemplo, nos mínimos quadrados comuns, você pode resolver a explicitação da inclinação ajustada e interceptar. Do ponto de vista numérico, você tem solucionadores mais eficientes quando também possui uma derivada.
O erro quadrático médio geralmente supera os valores extremos na minha opinião. É por isso que geralmente é mais robusto usar o erro absoluto médio, ou seja, usarf( x ) = | x | como sua função de erro. No entanto, como não é diferenciável, torna as soluções mais difíceis de trabalhar.
MSE é provavelmente uma boa escolha se os termos de erro forem normalmente distribuídos. Se eles têm caudas mais gordas, é preferível uma escolha mais robusta, como valor absoluto.
fonte
Em Case & Berger Statistical Inference 2ª página, página 332, a MSE penaliza igualmente por superestimação e subestimação, o que é bom no caso de localização. No caso da escala, no entanto, 0 é um limite inferior natural, portanto, o problema de estimativa não é simétrico. O uso de MSE nesse caso tende a perdoar a subestimação.
Convém verificar qual estimador atende às propriedades UMVUE, o que significa usar o limite inferior Cramer-Rao. P. 341
fonte