Se eu tiver um modelo de regressão:
onde e ,
quando o uso de , o estimador ordinário de mínimos quadrados de , seria uma má escolha para um estimador?
Estou tentando descobrir um exemplo em que os mínimos quadrados funcionam mal. Então, eu estou procurando uma distribuição dos erros que satisfaçam as hipóteses anteriores, mas produzam resultados ruins. Se a família da distribuição fosse determinada pela média e variação, isso seria ótimo. Caso contrário, tudo bem também.
Sei que "maus resultados" são um pouco vagos, mas acho que a ideia é compreensível.
Apenas para evitar confusões, sei que os mínimos quadrados não são ótimos e que existem melhores estimadores como a regressão de crista. Mas não é isso que pretendo. Eu quero um exemplo onde os mínimos quadrados não seriam naturais.
Eu posso imaginar coisas como, o vetor de erro vive em uma região não convexa de , mas não tenho certeza disso.
Edit 1: Como uma idéia para ajudar uma resposta (que não consigo entender como ir além). está AZUL. Portanto, pode ajudar a pensar quando um estimador linear imparcial não seria uma boa ideia.
Edit 2: Como Brian apontou, se estiver com mau condicionamento, então é uma má idéia porque a variação é muito grande e a Regressão de Ridge deve ser usada. Estou mais interessado em saber qual distribuição deve para fazer com que os mínimos quadrados funcionem mal.
Existe uma distribuição com matriz de média e variância de identidade zero para que torna esse estimador não eficiente?
Respostas:
A resposta de Brian Borchers é bastante boa - dados que contêm valores estranhos estranhos geralmente não são bem analisados pelo OLS. Vou apenas expandir isso adicionando uma imagem, um Monte Carlo e algum
R
código.Considere um modelo de regressão muito simples:
Este modelo está em conformidade com a sua configuração com um coeficiente de inclinação de 1.
O gráfico anexado mostra um conjunto de dados composto por 100 observações neste modelo, com a variável x executando de 0 a 1. No conjunto de dados plotado, há um empate no erro que resulta em um valor externo (+31 neste caso) . Também são plotadas a linha de regressão do OLS em azul e a linha de regressão de desvios menos absolutos em vermelho. Observe como o OLS, mas não o LAD, é distorcido pelo discrepante:
Podemos verificar isso fazendo um Monte Carlo. No Monte Carlo, eu gero um conjunto de dados de 100 observações usando o mesmo um com a distribuição acima 10.000 vezes. Nessas 10.000 repetições, não teremos discrepâncias na grande maioria. Porém, em alguns casos, obteremos um erro, e isso estragará o OLS, mas não o LAD a cada vez. O código abaixo executa o Monte Carlo. Aqui estão os resultados para os coeficientes de inclinação:ϵx ϵ
R
O OLS e o LAD produzem estimadores imparciais (as inclinações são de 1,00 em média ao longo das 10.000 repetições). O OLS produz um estimador com um desvio padrão muito maior, porém, 0,34 vs 0,09. Portanto, o OLS não é o melhor / mais eficiente entre os estimadores imparciais, aqui. Ainda é AZUL, é claro, mas o LAD não é linear, então não há contradição. Observe os erros selvagens que o OLS pode cometer nas colunas Mín e Máx. Não é tão LAD.
Aqui está o código R para o gráfico e o Monte Carlo:
fonte
Um exemplo seria onde você não deseja estimar a média. Isso surgiu no trabalho que eu costumava fazer, onde estávamos estimando o número de parceiros sexuais que as pessoas tinham, como parte da modelagem da disseminação do HIV / AIDS. Havia mais interesse nas caudas da distribuição: quais pessoas têm muitos parceiros?
Nesse caso, você pode querer regressão quantílica; um método subutilizado, na minha opinião.
fonte
Se é uma matriz mal condicionada ou exatamente singular, seu estimador de mínimos quadrados será extremamente instável e inútil na prática.X
Se você limitar sua atenção à distribuição de , lembre-se de que o teorema de Gauss-Markov garante que a solução dos mínimos quadrados seja um estimador imparcial de variância mínima.ϵ
No entanto, se a distribuição de for suficientemente extrema, é possível construir exemplos em que a distribuição das estimativas tenha propriedades ruins (em particular, a possibilidade (embora com baixa probabilidade) de erros extremamente grandes em ), apesar de mínima. variação. βϵ β
fonte