Essa pergunta parece fundamental o suficiente para que eu esteja convencido de que foi respondida aqui em algum lugar, mas não a encontrei.
Entendo que, se a variável dependente em uma regressão é normalmente distribuída, a probabilidade máxima e os mínimos quadrados comuns produzem as mesmas estimativas de parâmetro.
Quando a variável dependente não é normalmente distribuída, as estimativas do parâmetro OLS não são mais equivalentes ao MLE, mas ainda são as Melhores (variação mínima) Estimativas lineares não-tendenciosas (AZUL).
Então, quais são as propriedades do MLE que o tornam desejável além do que o OLS tem a oferecer (sendo AZUL)?
Em outras palavras, o que eu perco se não puder dizer que minhas estimativas de OLS são estimativas de probabilidade máxima?
Para motivar um pouco essa pergunta: estou me perguntando por que gostaria de escolher um modelo de regressão diferente de OLS na presença de uma variável dependente claramente não normal.
Respostas:
À medida que você se afasta suficientemente da normalidade, todos os estimadores lineares podem ser arbitrariamente ruins .
Saber que você pode obter o melhor de um lote ruim (ou seja, a melhor estimativa imparcial linear) não é muito consolador.
Se você pode especificar um modelo distributivo adequado ( sim, existe o problema ), maximizar a probabilidade tem um apelo intuitivo direto - na medida em que "maximiza a chance" de ver a amostra que você realmente viu (com um refinamento adequado do que significa isso para o caso contínuo) e várias propriedades muito interessantes que são teóricas e praticamente úteis (por exemplo, relação com o limite inferior de Cramer-Rao, equivalência em transformação, relação com testes de razão de verossimilhança e assim por diante). Isso motiva a estimativa M, por exemplo.
Mesmo quando você não pode especificar um modelo, é possível construir um modelo para o qual o ML seja robusto à contaminação por erros grosseiros na distribuição condicional da resposta - onde ele mantém uma eficiência muito boa no Gaussiano, mas evita o potencialmente desastroso impacto de valores discrepantes arbitrariamente grandes.
[Essa não é a única consideração com a regressão, pois também é necessário robustez ao efeito de outliers influentes, por exemplo, mas é um bom passo inicial]
A parte superior do diagrama é um gráfico de caixa dessas mil estimativas de inclinação para cada simulação. A parte inferior é o um por cento central (aproximadamente, é marcada com uma caixa cinza-alaranjada fraca na plotagem superior) da imagem "explodida" para que possamos ver mais detalhes. Como vemos, as inclinações dos mínimos quadrados variam de -771 a 1224 e os quartis inferior e superior são -1,24 e 2,46. O erro na inclinação LS foi superior a 10 mais de 10% do tempo. Os dois estimadores não lineares se saem muito melhor - eles se saem de maneira bastante semelhante, nenhuma das estimativas de 1000 inclinações em ambos os casos está a mais de 0,84 da inclinação verdadeira e o erro absoluto médio na inclinação está no campo de 0,14 para cada (vs 1,86 para o estimador de mínimos quadrados). A inclinação LS tem um RMSE de 223 e 232 vezes o dos estimadores L1 e LE neste caso (que '
Existem dezenas de outros estimadores razoáveis que podem ter sido usados aqui; esse foi simplesmente um cálculo rápido para ilustrar que mesmo os estimadores lineares melhores / mais eficientes podem não ser úteis. Um estimador de ML da inclinação teria um desempenho melhor (no sentido MSE) do que os dois estimadores robustos usados aqui, mas na prática você desejaria algo com alguma robustez a pontos influentes.
fonte
No caso de dados normalmente distribuídos, o OLS converge com o MLE, uma solução que é AZUL (nesse ponto). Uma vez fora do normal, o OLS não é mais AZUL (nos termos do teorema de Gauss-Markov) - isso ocorre porque o OLS procura minimizar o SSR, enquanto o GMT define o AZUL em termos de SE mínimo. Veja mais aqui .
De um modo geral, considerando que existe um MLE (procure por 'falha no MLE' ou nos casos em que o MLE não existe), é mais fácil ajustá-lo, para minimizar a variação ou torná-lo imparcial (e, portanto, comparável a outros estimadores) .
fonte