Suponho que fico frustrado toda vez que ouço alguém dizer que a não normalidade de resíduos e / ou heterocedasticidade viola as suposições do OLS. Para estimar parâmetros em um modelo OLS, nenhuma dessas suposições é necessária pelo teorema de Gauss-Markov. Vejo como isso é importante no Teste de Hipóteses para o modelo OLS, porque supondo que essas coisas nos dão fórmulas simples para testes t, testes F e estatísticas Wald mais gerais.
Mas não é muito difícil fazer testes de hipóteses sem eles. Se abandonarmos apenas a homoskedasticidade, podemos calcular erros padrão robustos e erros padrão agrupados facilmente. Se abandonarmos completamente a normalidade, podemos usar o bootstrapping e, dada outra especificação paramétrica para os termos de erro, razão de verossimilhança e testes de multiplicador de Lagrange.
É uma pena que nós o ensinemos dessa maneira, porque vejo muitas pessoas lutando com suposições que elas não precisam conhecer em primeiro lugar.
Por que enfatizamos tanto essas premissas quando temos a capacidade de aplicar facilmente técnicas mais robustas? Estou perdendo algo importante?
fonte
Respostas:
Em Econometria, diríamos que a não normalidade viola as condições do Modelo de Regressão Linear Normal Normal, enquanto a heterocedasticidade viola as suposições da CNLR e do Modelo de Regressão Linear Clássica.
Mas aqueles que dizem "... viola OLS" também são justificados: o nome Mínimos Quadrados Ordinários vem diretamente de Gauss e se refere essencialmente a erros normais . Em outras palavras, "OLS" não é um acrônimo para estimativa de mínimos quadrados (que é um princípio e abordagem muito mais geral), mas sim da CNLR.
Ok, isso era história, terminologia e semântica. Entendo o núcleo da pergunta do OP da seguinte forma: "Por que devemos enfatizar o ideal, se encontramos soluções para o caso quando ele não está presente?" (Como as premissas da CNLR são ideais, no sentido de fornecer excelentes propriedades estimadoras de mínimos quadrados "prontas para uso" e sem a necessidade de recorrer a resultados assintóticos, lembre-se também de que o OLS é uma probabilidade máxima quando os erros são normais )
Como ideal, é um bom lugar para começar a ensinar . É o que sempre fazemos ao ensinar qualquer tipo de assunto: situações "simples" são situações "ideais", livres das complexidades que realmente encontraremos na vida real e nas pesquisas reais e para as quais não existem soluções definidas .
E é isso que acho problemático no post do OP: ele escreve sobre erros padrão robustos e bootstrap como se fossem "alternativas superiores" ou soluções infalíveis para a falta das premissas mencionadas em discussão, nas quais, além disso, o OP escreve
Por quê? Porque existem alguns métodos para lidar com a situação, métodos que têm alguma validade, é claro, mas estão longe do ideal? Erros padrão de bootstrap e robustos com heterocedasticidade não são as soluções - se realmente fossem, teriam se tornado o paradigma dominante, enviando o CLR e o CNLR para os livros de história. Mas eles não são.
Assim, partimos do conjunto de suposições que garantem as propriedades do estimador que consideramos importantes (é outra discussão se as propriedades designadas como desejáveis são realmente as que deveriam ser), para que possamos manter visível que qualquer violação delas conseqüências que não podem ser totalmente compensadas pelos métodos que encontramos para lidar com a ausência dessas suposições. Seria realmente perigoso, cientificamente falando, transmitir a sensação de que "podemos abrir nosso caminho para a verdade da questão" - porque simplesmente não podemos.
Portanto, eles permanecem soluções imperfeitas para um problema , não uma maneira alternativa e / ou definitivamente superior de fazer as coisas. Portanto, primeiro precisamos ensinar a situação sem problemas, depois apontar para os possíveis problemas e depois discutir possíveis soluções. Caso contrário, elevaríamos essas soluções a um status que elas realmente não têm.
fonte
Se tivéssemos tempo na aula em que introduzimos modelos de regressão para discutir o bootstrapping e as outras técnicas que você mencionou (incluindo todas as suposições, armadilhas, etc.), eu concordaria com você que não é necessário falar sobre normalidade e premissas de homoscedasticidade. Mas, na verdade, quando a regressão é introduzida pela primeira vez, não temos tempo para conversar sobre todas essas outras coisas; portanto, preferimos que os alunos sejam conservadores e procurem por coisas que podem não ser necessárias e consulte um estatístico (ou faça outras estatísticas). classe ou 2 ou 3, ...) quando as suposições não se mantêm.
Se você disser aos alunos que essas suposições não importam, exceto quando ..., a maioria lembrará apenas da parte não importa e não da parte importante.
Se tivermos um caso com variações desiguais, sim, ainda podemos ajustar uma linha de mínimos quadrados, mas ainda é a linha "melhor"? ou seria melhor consultar alguém com mais experiência / treinamento sobre como ajustar as linhas nesse caso. Mesmo se estivermos felizes com a linha dos mínimos quadrados, não deveríamos reconhecer que as previsões terão propriedades diferentes para diferentes valores do (s) preditor (es)? Portanto, verificar variações desiguais é bom para interpretações posteriores, mesmo que não seja necessário para os testes / intervalos / etc. que estamos usando.
fonte
1) raramente as pessoas querem apenas estimar. Normalmente, inferência - ICs, PIs, testes - é o objetivo, ou pelo menos parte dele (mesmo que algumas vezes seja feito de maneira relativamente informal)
2) Coisas como o teorema de Gauss Markov não são necessariamente de muita ajuda - se a distribuição estiver suficientemente longe do normal, um estimador linear não será muito útil. Não faz sentido obter o AZUL se nenhum estimador linear for muito bom.
3) coisas como estimadores sanduíche envolvem um grande número de parâmetros implícitos. Ainda pode ser bom se você tiver muitos dados, mas muitas vezes as pessoas não.
4) Os intervalos de previsão dependem da forma da distribuição condicional, incluindo o bom controle da variação na observação - você não pode facilmente acenar com os detalhes com um PI.
5) coisas como bootstrapping geralmente são úteis para amostras muito grandes. Às vezes, eles se esforçam em amostras pequenas - e mesmo em amostras de tamanho médio, freqüentemente descobrimos que as propriedades de cobertura reais não são nada como anunciadas.
O que quer dizer - poucas coisas são do tipo de panacéia que as pessoas gostariam que fossem. Todas essas coisas têm o seu lugar, e certamente existem muitos casos em que (digamos) normalidade não é necessária e onde a estimativa e a inferência (testes e ICs) podem ser razoavelmente feitas sem a necessidade de normalidade, variação constante e assim por diante.
Uma coisa que muitas vezes parece ser esquecida são outras suposições paramétricas que poderiam ser feitas. Muitas vezes, as pessoas sabem o suficiente sobre uma situação para fazer uma suposição paramétrica razoavelmente decente (por exemplo, digamos ... que a resposta condicional tenderá a ser inclinada corretamente com sd praticamente proporcional à média pode nos levar a considerar, digamos, um modelo gama ou lognormal); freqüentemente isso pode lidar com a heterocedasticidade e a não normalidade de uma só vez.
Uma ferramenta muito útil é a simulação - com a qual podemos examinar as propriedades de nossas ferramentas em situações muito semelhantes às de onde nossos dados podem ter surgido; portanto, use-as com o conhecimento reconfortante de que elas têm boas propriedades nesses casos ( ou, às vezes, verifique se eles não funcionam tão bem quanto esperamos).
fonte