Por que nos preocupamos tanto com os termos de erro normalmente distribuídos (e a homocedasticidade) na regressão linear quando não precisamos?

52

Suponho que fico frustrado toda vez que ouço alguém dizer que a não normalidade de resíduos e / ou heterocedasticidade viola as suposições do OLS. Para estimar parâmetros em um modelo OLS, nenhuma dessas suposições é necessária pelo teorema de Gauss-Markov. Vejo como isso é importante no Teste de Hipóteses para o modelo OLS, porque supondo que essas coisas nos dão fórmulas simples para testes t, testes F e estatísticas Wald mais gerais.

Mas não é muito difícil fazer testes de hipóteses sem eles. Se abandonarmos apenas a homoskedasticidade, podemos calcular erros padrão robustos e erros padrão agrupados facilmente. Se abandonarmos completamente a normalidade, podemos usar o bootstrapping e, dada outra especificação paramétrica para os termos de erro, razão de verossimilhança e testes de multiplicador de Lagrange.

É uma pena que nós o ensinemos dessa maneira, porque vejo muitas pessoas lutando com suposições que elas não precisam conhecer em primeiro lugar.

Por que enfatizamos tanto essas premissas quando temos a capacidade de aplicar facilmente técnicas mais robustas? Estou perdendo algo importante?

Zachary Blumenfeld
fonte
2
Parece ser uma coisa disciplinar. Na minha experiência, nos extremos, os textos de Econometria quase sempre cobrem as inferências que cada suposição compra e os textos de Psicologia parecem nunca mencionar nada sobre o tópico.
conjugateprior
12
A homocedasticidade é necessária para que o OLS seja AZUL.
Momo
4
Eu acho que você está certo, essas suposições recebem atenção indevida. Falha na normalidade ou homoscedasticidade condicional. não é tão prejudicial para os objetivos inferenciais da maioria dos profissionais quanto a endogeneidade e formas funcionais mal especificadas.
CloseToC
2
@CloseToC este é um ponto muito bom. Freqüentemente ficamos tão preocupados com os aspectos técnicos estatísticos do modelo de regressão que esquecemos o quadro geral ... meu modelo está especificado corretamente e é exógeno? Isso deve ser enfatizado repetidamente como uma das principais perguntas a se fazer ao criar qualquer modelo.
Zachary Blumenfeld

Respostas:

25

Em Econometria, diríamos que a não normalidade viola as condições do Modelo de Regressão Linear Normal Normal, enquanto a heterocedasticidade viola as suposições da CNLR e do Modelo de Regressão Linear Clássica.

Mas aqueles que dizem "... viola OLS" também são justificados: o nome Mínimos Quadrados Ordinários vem diretamente de Gauss e se refere essencialmente a erros normais . Em outras palavras, "OLS" não é um acrônimo para estimativa de mínimos quadrados (que é um princípio e abordagem muito mais geral), mas sim da CNLR.

Ok, isso era história, terminologia e semântica. Entendo o núcleo da pergunta do OP da seguinte forma: "Por que devemos enfatizar o ideal, se encontramos soluções para o caso quando ele não está presente?" (Como as premissas da CNLR são ideais, no sentido de fornecer excelentes propriedades estimadoras de mínimos quadrados "prontas para uso" e sem a necessidade de recorrer a resultados assintóticos, lembre-se também de que o OLS é uma probabilidade máxima quando os erros são normais )

Como ideal, é um bom lugar para começar a ensinar . É o que sempre fazemos ao ensinar qualquer tipo de assunto: situações "simples" são situações "ideais", livres das complexidades que realmente encontraremos na vida real e nas pesquisas reais e para as quais não existem soluções definidas .

E é isso que acho problemático no post do OP: ele escreve sobre erros padrão robustos e bootstrap como se fossem "alternativas superiores" ou soluções infalíveis para a falta das premissas mencionadas em discussão, nas quais, além disso, o OP escreve

".. suposições que as pessoas não precisam atender"

Por quê? Porque existem alguns métodos para lidar com a situação, métodos que têm alguma validade, é claro, mas estão longe do ideal? Erros padrão de bootstrap e robustos com heterocedasticidade não são as soluções - se realmente fossem, teriam se tornado o paradigma dominante, enviando o CLR e o CNLR para os livros de história. Mas eles não são.

Assim, partimos do conjunto de suposições que garantem as propriedades do estimador que consideramos importantes (é outra discussão se as propriedades designadas como desejáveis ​​são realmente as que deveriam ser), para que possamos manter visível que qualquer violação delas conseqüências que não podem ser totalmente compensadas pelos métodos que encontramos para lidar com a ausência dessas suposições. Seria realmente perigoso, cientificamente falando, transmitir a sensação de que "podemos abrir nosso caminho para a verdade da questão" - porque simplesmente não podemos.

Portanto, eles permanecem soluções imperfeitas para um problema , não uma maneira alternativa e / ou definitivamente superior de fazer as coisas. Portanto, primeiro precisamos ensinar a situação sem problemas, depois apontar para os possíveis problemas e depois discutir possíveis soluções. Caso contrário, elevaríamos essas soluções a um status que elas realmente não têm.

Alecos Papadopoulos
fonte
Hmmm, se é isso que você quis dizer, você pode tentar "totalmente comprovado".
gung - Restabelece Monica
@gung Não, não, os métodos são "totalmente comprovados" no sentido matemático, mas não são infalíveis no que realmente oferecem (esse "pequeno" detalhe sobre assintóticos novamente e qual é o seu valor). Sua correção foi a correta.
Alecos Papadopoulos
22

Se tivéssemos tempo na aula em que introduzimos modelos de regressão para discutir o bootstrapping e as outras técnicas que você mencionou (incluindo todas as suposições, armadilhas, etc.), eu concordaria com você que não é necessário falar sobre normalidade e premissas de homoscedasticidade. Mas, na verdade, quando a regressão é introduzida pela primeira vez, não temos tempo para conversar sobre todas essas outras coisas; portanto, preferimos que os alunos sejam conservadores e procurem por coisas que podem não ser necessárias e consulte um estatístico (ou faça outras estatísticas). classe ou 2 ou 3, ...) quando as suposições não se mantêm.

Se você disser aos alunos que essas suposições não importam, exceto quando ..., a maioria lembrará apenas da parte não importa e não da parte importante.

Se tivermos um caso com variações desiguais, sim, ainda podemos ajustar uma linha de mínimos quadrados, mas ainda é a linha "melhor"? ou seria melhor consultar alguém com mais experiência / treinamento sobre como ajustar as linhas nesse caso. Mesmo se estivermos felizes com a linha dos mínimos quadrados, não deveríamos reconhecer que as previsões terão propriedades diferentes para diferentes valores do (s) preditor (es)? Portanto, verificar variações desiguais é bom para interpretações posteriores, mesmo que não seja necessário para os testes / intervalos / etc. que estamos usando.

Greg Snow
fonte
Entendo e aprecio o que você está dizendo, especialmente que há uma restrição de tempo significativa. O que vejo na minha instituição é que, quando os alunos lutam com essas premissas, muitas vezes não recebem ou não podem receber a consultoria necessária. Então, eles acabam selecionando projetos com base no ajuste de premissas do modelo ou usando inadequadamente o modelo clássico para violar as premissas. Argumento que, ao ensinar técnicas mais robustas, os alunos ficariam menos restritos em suas escolhas e, portanto, habilitados a prosseguir projetos pelos quais são realmente apaixonados.
Zachary Blumenfeld
13
Você sempre começa com um caso ideal ao ensinar e depois enfrenta todos os tipos de complicações. No nível de doutorado em economia, eles ensinam todo tipo de coisas estranhas, mas leva tempo para chegar lá. Eu não acho que seja um problema de educação que a maioria das pessoas saia do trem em algum lugar do nível de mestrado. Na verdade, eu diria que a questão maior é a infestação de pragas por "cientistas de dados", com quase zero conhecimento de fundações de estatísticas que aplicam pacotes R sofisticados à esquerda e à direita, sem ter idéia do que estão fazendo e lutando para faça um sentido das saídas.
Aksakal
@Aksakal, onde exatamente você vê esse grande número de analistas superconfiantes e subqualificados? Porque o que eu encontro com mais frequência é quase o oposto. As pessoas têm medo de experimentar as técnicas que aprenderam, a menos que primeiro sejam aprovadas por um especialista. Apenas neste site, tenho certeza de que você já viu muitas perguntas com o efeito "Eu posso ..." ou "É válido para ..." quando uma pergunta mais experiente / construtiva seria " O que resultaria se .... "
rolando2
18

1) raramente as pessoas querem apenas estimar. Normalmente, inferência - ICs, PIs, testes - é o objetivo, ou pelo menos parte dele (mesmo que algumas vezes seja feito de maneira relativamente informal)

2) Coisas como o teorema de Gauss Markov não são necessariamente de muita ajuda - se a distribuição estiver suficientemente longe do normal, um estimador linear não será muito útil. Não faz sentido obter o AZUL se nenhum estimador linear for muito bom.

3) coisas como estimadores sanduíche envolvem um grande número de parâmetros implícitos. Ainda pode ser bom se você tiver muitos dados, mas muitas vezes as pessoas não.

4) Os intervalos de previsão dependem da forma da distribuição condicional, incluindo o bom controle da variação na observação - você não pode facilmente acenar com os detalhes com um PI.

5) coisas como bootstrapping geralmente são úteis para amostras muito grandes. Às vezes, eles se esforçam em amostras pequenas - e mesmo em amostras de tamanho médio, freqüentemente descobrimos que as propriedades de cobertura reais não são nada como anunciadas.

O que quer dizer - poucas coisas são do tipo de panacéia que as pessoas gostariam que fossem. Todas essas coisas têm o seu lugar, e certamente existem muitos casos em que (digamos) normalidade não é necessária e onde a estimativa e a inferência (testes e ICs) podem ser razoavelmente feitas sem a necessidade de normalidade, variação constante e assim por diante.

Uma coisa que muitas vezes parece ser esquecida são outras suposições paramétricas que poderiam ser feitas. Muitas vezes, as pessoas sabem o suficiente sobre uma situação para fazer uma suposição paramétrica razoavelmente decente (por exemplo, digamos ... que a resposta condicional tenderá a ser inclinada corretamente com sd praticamente proporcional à média pode nos levar a considerar, digamos, um modelo gama ou lognormal); freqüentemente isso pode lidar com a heterocedasticidade e a não normalidade de uma só vez.

Uma ferramenta muito útil é a simulação - com a qual podemos examinar as propriedades de nossas ferramentas em situações muito semelhantes às de onde nossos dados podem ter surgido; portanto, use-as com o conhecimento reconfortante de que elas têm boas propriedades nesses casos ( ou, às vezes, verifique se eles não funcionam tão bem quanto esperamos).

Glen_b
fonte
"raramente as pessoas querem apenas estimar" - nas finanças e economia corporativa, as pessoas estimam muito para provocar o impacto de uma determinada variável. Eu li vários artigos, em que os autores nem olham para os intervalos de confiança; eles notam o significado, é claro, sob as premissas normais.
Aksakal
6
@ Aksakal bem, sim, mas se eles estão prestando atenção aos erros padrão, ou valores t ou valores p, etc ... então, pelo meu julgamento, eles não querem apenas estimar. Quer eles testem / construam formalmente intervalos ou não, para que esse tipo de observação dessas outras coisas - ainda que informalmente - seja significativa, elas teriam que ter significado em primeiro lugar.
Glen_b