Que problema os métodos de encolhimento resolvem?

61

A temporada de férias me deu a oportunidade de me aconchegar ao lado do fogo com Os elementos do aprendizado estatístico . Vindo de uma perspectiva econométrica (freqüentista), estou tendo problemas para entender os usos de métodos de encolhimento, como regressão de cume, laço e regressão de menor ângulo (LAR). Normalmente, estou interessado nas estimativas de parâmetros e em obter imparcialidade ou pelo menos consistência. Os métodos de contração não fazem isso.

Parece-me que esses métodos são usados ​​quando o estatístico está preocupado que a função de regressão se torne muito sensível aos preditores, que considere os preditores mais importantes (medidos pela magnitude dos coeficientes) do que realmente são. Em outras palavras, sobreajuste.

Porém, o OLS geralmente fornece estimativas imparciais e consistentes. (Nota de rodapé) Eu sempre vi o problema de sobreajuste, não de fornecer estimativas muito grandes, mas de intervalos de confiança muito pequenos porque o processo de seleção não é levado em consideração ( A ESL menciona esse último ponto).

As estimativas não tendenciosas / consistentes do coeficiente levam a previsões não imparciais / consistentes do resultado. Os métodos de retração aproximam as previsões do resultado médio do que o OLS, aparentemente deixando as informações em cima da mesa.

Para reiterar, não vejo que problema os métodos de encolhimento estão tentando resolver. Estou esquecendo de algo?

Nota de rodapé: Precisamos da condição de classificação da coluna completa para identificação dos coeficientes. A suposição média condicional de exogeneidade / zero para os erros e a suposição de expectativa condicional linear determinam a interpretação que podemos dar aos coeficientes, mas obtemos uma estimativa imparcial ou consistente de algo, mesmo que essas suposições não sejam verdadeiras.

Charlie
fonte
11
Existem várias perguntas relacionadas aqui. Este é um: stats.stackexchange.com/questions/10478/…
cardeal
2
Observe que existem condições simples e razoavelmente fracas na escolha do parâmetro de contração para obter a consistência do parâmetro. Isso é detalhado no famoso artigo de Knight & Fu (2000) e abrange casos muito além da regressão da cordilheira e do laço. A consistência na seleção de modelos também se tornou um tópico popular nos últimos anos.
cardeal
@ cardinal, obrigado pelos ponteiros para modelar resultados de consistência para laço; Vou dar uma olhada. Obviamente, esses resultados também podem ser encontrados para o OLS. Os resultados sugerem que ambos os procedimentos chegam ao mesmo local. Então ainda não entendo por que usaríamos o laço sobre o OLS.
28411 Charlie
11
A consistência do modelo é um conceito diferente da consistência assintótica das estimativas de parâmetros. Você está ciente (familiarizado) com essa diferença?
cardeal
@ cardinal, Pela consistência do modelo, suponho que você queira dizer que os preditores corretos estão incluídos. Podemos conseguir isso usando o critério AIC no processo de seleção usando OLS. Eu acho que você está sugerindo que, no limite, o laço seleciona o modelo certo com coeficientes "errados"?
28411 Charlie

Respostas:

47

Suspeito que você queira uma resposta mais profunda, e terei que deixar que outra pessoa forneça isso, mas posso lhe dar algumas idéias sobre a regressão de cordilheiras a partir de uma perspectiva vaga e conceitual.

A regressão OLS produz estimativas de parâmetros que são imparciais (ou seja, se essas amostras são coletadas e os parâmetros são estimados indefinidamente, a distribuição amostral das estimativas de parâmetros será centrada no valor real). Além disso, a distribuição amostral terá a menor variação de todas as estimativas imparciais imparciais possíveis (isso significa que, em média, uma estimativa do parâmetro OLS estará mais próxima do valor real do que uma estimativa de algum outro procedimento de estimativa imparcial). Esta é uma notícia antiga (e peço desculpas, eu sei que você conhece isso bem), no entanto, o fato de a variação ser menor não significa que seja terrivelmente baixa. Sob algumas circunstâncias, a variação da distribuição amostral pode ser tão grande que torna o estimador OLS essencialmente inútil. (Uma situação em que isso pode ocorrer é quando existe um alto grau de multicolinearidade.)

O que se deve fazer em tal situação? Bem, pode-se encontrar um estimador diferente que tem menor variação (embora, obviamente, deva ser tendencioso, dado o que foi estipulado acima). Ou seja, estamos trocando imparcialidade por menor variação. Por exemplo, obtemos estimativas de parâmetros que provavelmente estão substancialmente mais próximas do valor verdadeiro, embora provavelmente um pouco abaixo do valor verdadeiro. Se essa troca vale a pena é um julgamento que o analista deve fazer quando confrontado com essa situação. De qualquer forma, a regressão de crista é exatamente essa técnica. A figura a seguir (completamente fabricada) tem como objetivo ilustrar essas idéias.

insira a descrição da imagem aqui

Isso fornece uma introdução curta, simples e conceitual à regressão de crista. Sei menos sobre laço e LAR, mas acredito que as mesmas idéias possam ser aplicadas. Mais informações sobre o laço e a regressão de menor ângulo podem ser encontradas aqui , o link "explicação simples ..." é especialmente útil. Isso fornece muito mais informações sobre métodos de contração.

Espero que isso tenha algum valor.

- Reinstate Monica
fonte
12
Isso fornece algumas boas dicas conceituais. No segundo parágrafo, há muito foco na imparcialidade, mas falta uma ressalva importante. A menos que (a) o modelo linear esteja "correto" (e, quando é?) E (b) todos os preditores relevantes sejam incluídos no modelo, as estimativas do coeficiente ainda serão tendenciosas, em geral.
cardeal
5
Meu entendimento limitado da troca de viés / variação é que alguém que procura uma explicação (como talvez o pôster original) prefere a imparcialidade, mesmo que a variação seja maior, mas alguém que faz uma previsão pode preferir algo com pequena variação, mesmo que o viés é introduzido.
Wayne
2
@Wayne: De fato, este é (um dos) os pontos cruciais da questão. Grande parte do ponto de vista em ESL vem de uma perspectiva de previsão e, portanto, isso colore uma grande parte de sua análise. Realizar inferência em um único coeficiente, particularmente em um cenário observacional, é uma questão muito escorregadia. Seria bastante convincente afirmar que as estimativas do coeficiente eram realmente "imparciais".
cardeal
11
Com algum tempo, posso tentar expandir meus comentários já excessivamente volumosos um pouco mais tarde.
cardeal
@gung, aqui é um segmento Meta relacionada que você talvez possa estar interessado.
Richard Hardy
16

O erro de um estimador é uma combinação de componentes de desvio e desvio (ao quadrado) . No entanto, na prática, queremos ajustar um modelo a uma amostra finita de dados específica e queremos minimizar o erro total do estimador avaliado na amostra específica de dados que realmente temos , em vez de um erro zero em média em alguma população de amostras (que não temos). Assim, queremos reduzir o viés e a variação, para minimizar o erro, o que geralmente significa sacrificar a imparcialidade para fazer uma maior redução no componente de variação. Isso é especialmente verdadeiro quando se lida com pequenos conjuntos de dados, nos quais a variação provavelmente é alta.

Eu acho que a diferença de foco depende se alguém está interessado nas propriedades de um procedimento ou se obtém os melhores resultados em uma amostra específica. Os freqüentistas geralmente acham que o primeiro é mais fácil de lidar dentro dessa estrutura; Os bayesianos geralmente se concentram mais nesse último.

Dikran Marsupial
fonte
9

Eu acho que existem algumas respostas que podem ser aplicáveis:

  • A regressão de Ridge pode fornecer identificação quando a matriz de preditores não está na classificação completa da coluna.
  • Lasso e LAR podem ser usados ​​quando o número de preditores for maior que o número de observações (outra variante da questão não singular).
  • Lasso e LAR são algoritmos de seleção automática de variáveis.

Não tenho certeza de que o primeiro ponto em relação à regressão de cume seja realmente um recurso; Eu acho que prefiro mudar meu modelo para lidar com a não identificação. Mesmo sem uma alteração na modelagem, o OLS fornece previsões únicas (e imparciais / consistentes) do resultado nesse caso.

Pude ver como o segundo ponto poderia ser útil, mas a seleção direta também pode funcionar no caso de o número de parâmetros exceder o número de observações enquanto produz estimativas consistentes e imparciais.

No último ponto, a seleção de avanço / retrocesso, como exemplos, é facilmente automatizada.

Então ainda não vejo as vantagens reais.

Charlie
fonte
6
Algumas observações: ( 1 ) As estimativas da OLS não são únicas quando a matriz de preditores não é de classificação completa. ( 2 ) Consistência é um conceito assintótico e, portanto, requer uma sequência de estimadores. Isso significa que você precisa para definir o tipo de sequência que você está considerando, e do tipo de crescimento que você está interessado em não importa. ( 3 ) Existem vários tipos de consistência e o entendimento das diferenças entre eles pode ser ilustrativo. O artigo de Zhao & Yu (2006) tem uma boa discussão. ( 4 ) A imparcialidade é superestimada.
cardeal
11
( 5 ) A motivação original da regressão de cordilheira em Hoerl & Kennard (1970) era lidar com matrizes de projeto mal condicionadas, que é uma forma "branda" de deficiência de classificação.
cardeal
11
@ cardinal, re. (1): Desculpe, eu quis dizer previsões do resultado, em vez de estimativas dos coeficientes.
Charlie
11
Ah ok. Isso se enquadra melhor com sua nota de rodapé na pergunta.
cardeal
Aqui está um link para a versão publicamente disponível de Zhao & Yu (2006), como no comentário acima.
Richard Hardy
4

Aqui está um exemplo básico aplicado da Bioestatística

Vamos supor que estou estudando possíveis relações entre a presença de câncer de ovário e um conjunto de genes.

Minha variável dependente é uma binária (codificada como zero ou 1). Minhas variáveis ​​independentes codificam dados de um banco de dados proteômico.

Como é comum em muitos estudos de genética, meus dados são muito mais amplos do que altos. Eu tenho 216 observações diferentes, mas 4000 preditores possíveis.

A regressão linear está correta (o sistema é horrível demais determinado).

técnicas de seleção de recursos realmente não são viáveis. Com mais de 4.000 variáveis ​​independentes diferentes, todas as técnicas possíveis de subconjunto estão completamente fora de questão e até a seleção seqüencial de recursos é duvidosa.

A melhor opção é provavelmente usar a regressão logística com uma rede elástica.

Eu quero fazer a seleção de recursos (identificar quais variáveis ​​independentes são importantes) para que a regressão de cume não seja apropriada.

É perfeitamente possível que existam mais de 216 variáveis ​​independentes que tenham influência significativa, por isso provavelmente não devo usar um laço (o Lasso não consegue identificar mais preditores do que as observações) ...

Entre na rede elástica ...

Richard Willey
fonte
11
você poderia fornecer um livro que lida com as situações mencionadas por você?
Qbik
0

Outro problema que os métodos de retração por regressão linear podem abordar é a obtenção de uma estimativa de baixa variação (possivelmente imparcial) de um efeito de tratamento médio (ATE) em estudos de controle de caso de alta dimensão sobre dados observacionais.

Especificamente, nos casos em que 1) há um grande número de variáveis ​​(dificultando a seleção de variáveis ​​para a correspondência exata), 2) a correspondência do escore de propensão falha em eliminar o desequilíbrio nas amostras de tratamento e controle e 3) a multicolinearidade está presente. Existem várias técnicas, como o laço adaptativo (Zou, 2006), que obtém estimativas assintoticamente imparciais. Existem vários artigos que discutem o uso da regressão do laço para inferência causal e a geração de intervalos de confiança nas estimativas de coeficientes (consulte o seguinte post: Inferência após o uso do laço para seleção de variáveis ).

RobertF
fonte