A temporada de férias me deu a oportunidade de me aconchegar ao lado do fogo com Os elementos do aprendizado estatístico . Vindo de uma perspectiva econométrica (freqüentista), estou tendo problemas para entender os usos de métodos de encolhimento, como regressão de cume, laço e regressão de menor ângulo (LAR). Normalmente, estou interessado nas estimativas de parâmetros e em obter imparcialidade ou pelo menos consistência. Os métodos de contração não fazem isso.
Parece-me que esses métodos são usados quando o estatístico está preocupado que a função de regressão se torne muito sensível aos preditores, que considere os preditores mais importantes (medidos pela magnitude dos coeficientes) do que realmente são. Em outras palavras, sobreajuste.
Porém, o OLS geralmente fornece estimativas imparciais e consistentes. (Nota de rodapé) Eu sempre vi o problema de sobreajuste, não de fornecer estimativas muito grandes, mas de intervalos de confiança muito pequenos porque o processo de seleção não é levado em consideração ( A ESL menciona esse último ponto).
As estimativas não tendenciosas / consistentes do coeficiente levam a previsões não imparciais / consistentes do resultado. Os métodos de retração aproximam as previsões do resultado médio do que o OLS, aparentemente deixando as informações em cima da mesa.
Para reiterar, não vejo que problema os métodos de encolhimento estão tentando resolver. Estou esquecendo de algo?
Nota de rodapé: Precisamos da condição de classificação da coluna completa para identificação dos coeficientes. A suposição média condicional de exogeneidade / zero para os erros e a suposição de expectativa condicional linear determinam a interpretação que podemos dar aos coeficientes, mas obtemos uma estimativa imparcial ou consistente de algo, mesmo que essas suposições não sejam verdadeiras.
fonte
Respostas:
Suspeito que você queira uma resposta mais profunda, e terei que deixar que outra pessoa forneça isso, mas posso lhe dar algumas idéias sobre a regressão de cordilheiras a partir de uma perspectiva vaga e conceitual.
A regressão OLS produz estimativas de parâmetros que são imparciais (ou seja, se essas amostras são coletadas e os parâmetros são estimados indefinidamente, a distribuição amostral das estimativas de parâmetros será centrada no valor real). Além disso, a distribuição amostral terá a menor variação de todas as estimativas imparciais imparciais possíveis (isso significa que, em média, uma estimativa do parâmetro OLS estará mais próxima do valor real do que uma estimativa de algum outro procedimento de estimativa imparcial). Esta é uma notícia antiga (e peço desculpas, eu sei que você conhece isso bem), no entanto, o fato de a variação ser menor não significa que seja terrivelmente baixa. Sob algumas circunstâncias, a variação da distribuição amostral pode ser tão grande que torna o estimador OLS essencialmente inútil. (Uma situação em que isso pode ocorrer é quando existe um alto grau de multicolinearidade.)
O que se deve fazer em tal situação? Bem, pode-se encontrar um estimador diferente que tem menor variação (embora, obviamente, deva ser tendencioso, dado o que foi estipulado acima). Ou seja, estamos trocando imparcialidade por menor variação. Por exemplo, obtemos estimativas de parâmetros que provavelmente estão substancialmente mais próximas do valor verdadeiro, embora provavelmente um pouco abaixo do valor verdadeiro. Se essa troca vale a pena é um julgamento que o analista deve fazer quando confrontado com essa situação. De qualquer forma, a regressão de crista é exatamente essa técnica. A figura a seguir (completamente fabricada) tem como objetivo ilustrar essas idéias.
Isso fornece uma introdução curta, simples e conceitual à regressão de crista. Sei menos sobre laço e LAR, mas acredito que as mesmas idéias possam ser aplicadas. Mais informações sobre o laço e a regressão de menor ângulo podem ser encontradas aqui , o link "explicação simples ..." é especialmente útil. Isso fornece muito mais informações sobre métodos de contração.
Espero que isso tenha algum valor.
fonte
O erro de um estimador é uma combinação de componentes de desvio e desvio (ao quadrado) . No entanto, na prática, queremos ajustar um modelo a uma amostra finita de dados específica e queremos minimizar o erro total do estimador avaliado na amostra específica de dados que realmente temos , em vez de um erro zero em média em alguma população de amostras (que não temos). Assim, queremos reduzir o viés e a variação, para minimizar o erro, o que geralmente significa sacrificar a imparcialidade para fazer uma maior redução no componente de variação. Isso é especialmente verdadeiro quando se lida com pequenos conjuntos de dados, nos quais a variação provavelmente é alta.
Eu acho que a diferença de foco depende se alguém está interessado nas propriedades de um procedimento ou se obtém os melhores resultados em uma amostra específica. Os freqüentistas geralmente acham que o primeiro é mais fácil de lidar dentro dessa estrutura; Os bayesianos geralmente se concentram mais nesse último.
fonte
Eu acho que existem algumas respostas que podem ser aplicáveis:
Não tenho certeza de que o primeiro ponto em relação à regressão de cume seja realmente um recurso; Eu acho que prefiro mudar meu modelo para lidar com a não identificação. Mesmo sem uma alteração na modelagem, o OLS fornece previsões únicas (e imparciais / consistentes) do resultado nesse caso.
Pude ver como o segundo ponto poderia ser útil, mas a seleção direta também pode funcionar no caso de o número de parâmetros exceder o número de observações enquanto produz estimativas consistentes e imparciais.
No último ponto, a seleção de avanço / retrocesso, como exemplos, é facilmente automatizada.
Então ainda não vejo as vantagens reais.
fonte
Aqui está um exemplo básico aplicado da Bioestatística
Vamos supor que estou estudando possíveis relações entre a presença de câncer de ovário e um conjunto de genes.
Minha variável dependente é uma binária (codificada como zero ou 1). Minhas variáveis independentes codificam dados de um banco de dados proteômico.
Como é comum em muitos estudos de genética, meus dados são muito mais amplos do que altos. Eu tenho 216 observações diferentes, mas 4000 preditores possíveis.
A regressão linear está correta (o sistema é horrível demais determinado).
técnicas de seleção de recursos realmente não são viáveis. Com mais de 4.000 variáveis independentes diferentes, todas as técnicas possíveis de subconjunto estão completamente fora de questão e até a seleção seqüencial de recursos é duvidosa.
A melhor opção é provavelmente usar a regressão logística com uma rede elástica.
Eu quero fazer a seleção de recursos (identificar quais variáveis independentes são importantes) para que a regressão de cume não seja apropriada.
É perfeitamente possível que existam mais de 216 variáveis independentes que tenham influência significativa, por isso provavelmente não devo usar um laço (o Lasso não consegue identificar mais preditores do que as observações) ...
Entre na rede elástica ...
fonte
Outro problema que os métodos de retração por regressão linear podem abordar é a obtenção de uma estimativa de baixa variação (possivelmente imparcial) de um efeito de tratamento médio (ATE) em estudos de controle de caso de alta dimensão sobre dados observacionais.
Especificamente, nos casos em que 1) há um grande número de variáveis (dificultando a seleção de variáveis para a correspondência exata), 2) a correspondência do escore de propensão falha em eliminar o desequilíbrio nas amostras de tratamento e controle e 3) a multicolinearidade está presente. Existem várias técnicas, como o laço adaptativo (Zou, 2006), que obtém estimativas assintoticamente imparciais. Existem vários artigos que discutem o uso da regressão do laço para inferência causal e a geração de intervalos de confiança nas estimativas de coeficientes (consulte o seguinte post: Inferência após o uso do laço para seleção de variáveis ).
fonte