Uma discussão mais definitiva sobre seleção de variáveis

fundo

Estou fazendo pesquisa clínica em medicina e fiz vários cursos de estatística. Nunca publiquei um artigo usando regressão linear / logística e gostaria de fazer a seleção de variáveis corretamente. A interpretabilidade é importante, portanto, não há técnicas sofisticadas de aprendizado de máquina. Resumi minha compreensão da seleção de variáveis - alguém se importaria de esclarecer quaisquer equívocos? Encontrei dois (1) posts similares (2) no CV, mas eles não responderam completamente às minhas preocupações. Qualquer pensamento seria muito apreciado! Eu tenho três perguntas principais no final.

Problema e Discussão

Meu problema típico de regressão / classificação tem 200-300 observações, uma taxa de eventos adversos de 15% (se classificação) e informações sobre 25 das 40 variáveis que alegam ter um efeito "estatisticamente significativo" na literatura ou tornam plausível sentido pelo conhecimento do domínio.

Coloquei "estatisticamente significante" entre aspas, porque parece que todo mundo e sua mãe usam regressão gradual, mas Harrell (3) e Flom (4) não parecem gostar disso por várias boas razões. Isso também é suportado por uma discussão no blog Gelman (5). Parece que o único tempo real aceitável por etapas é se essa é uma análise verdadeiramente exploratória ou se alguém está interessado em previsão e possui um esquema de validação cruzada. Especialmente porque muitas comorbidades médicas sofrem de colinearidade E os estudos sofrem com um pequeno tamanho de amostra, meu entendimento é que haverá muitos falsos positivos na literatura; isso também me torna menos provável que confie na literatura para incluir possíveis variáveis.

Outra abordagem popular é usar uma série de regressões / associações univariadas entre preditores e variável independente como ponto de partida. abaixo de um determinado limite (digamos, p <0,2). Isso parece incorreto ou pelo menos enganoso pelos motivos descritos nesta postagem do StackExchange (6).

Por fim, uma abordagem automatizada que parece popular no aprendizado de máquina é usar penalizações como L1 (Lasso), L2 (Ridge) ou combinação L1 + L2 (Elastic Net). Meu entendimento é que essas não têm as mesmas interpretações fáceis que o OLS ou a regressão logística.

Gelman + Hill propõe o seguinte:

No meu curso Stats, também me lembro de usar testes F ou Analysis of Deviance para comparar modelos completos e aninhados para fazer a seleção de modelo / variável variável por variável. Isso parece razoável, mas ajustar modelos aninhados seqüenciais sistematicamente para encontrar variáveis que causam maior queda no desvio por df parece que poderia ser facilmente automatizado (por isso estou um pouco preocupado) e também parece que sofre de problemas da ordem em que você testa a inclusão de variáveis. Meu entendimento é que isso também deve ser complementado pela investigação de multicolinearidade e parcelas residuais (residual vs. predito).

Questões:

O resumo do Gelman é o caminho a seguir? O que você adicionaria ou mudaria na estratégia proposta?
Além de pensar puramente em possíveis interações e transformações (que parecem muito propensas a erros / omissões), existe outra maneira de descobrir possíveis? A spline de regressão adaptativa multivariada (MARS) foi recomendada para mim, mas fui informado de que as não linearidades / transformações não se traduzem nas mesmas variáveis em um modelo de regressão padrão.
Suponha que meu objetivo seja muito simples: digamos, "eu gostaria de estimar a associação de X1 a Y, representando apenas X2". É adequado simplesmente regredir Y ~ X1 + X2, relatar o resultado, sem referência à capacidade preditiva real (como pode ser medido pelo RMSE de validação cruzada ou por medidas de precisão)? Isso muda de acordo com a taxa de eventos ou o tamanho da amostra ou se R ^ 2 é super baixo (sei que R ^ 2 não é bom porque você sempre pode aumentá-lo sobreajuste)? Geralmente, estou mais interessado em inferência / interpretabilidade do que em otimizar o poder preditivo.

Conclusões de exemplo:

"Controlando X2, X1 não foi associado estatisticamente significativamente a Y em relação ao nível de referência de X1". (coeficiente de regressão logística)
"X1 não foi um preditor estatisticamente significativo de Y, pois no modelo a queda no desvio não foi suficiente em relação à mudança em df". (Análise de desvio)

A validação cruzada é sempre necessária? Nesse caso, pode-se também querer fazer algum balanceamento de classes via SMOTE, amostragem etc.

regression feature-selection model-selection sharper_image
fonte

Referências 1. stats.stackexchange.com/questions/56725/… 2. stats.stackexchange.com/questions/221907/… 3. stats.stackexchange.com/questions/18214/… 4. lexjansen.com/pnwsug/2008/ DavidCassell-StoppingStepwise.pdf 5. andrewgelman.com/2014/06/02/hate-stepwise-regression 6. stats.stackexchange.com/questions/138860/...

sharper_image

Se algo pode ou não ser automatizado (atualmente - antes do advento da IA forte) parece-me um arenque vermelho.

gung - Restabelece Monica

+1 para uma pergunta muito ponderada. Uma coisa que sua análise demonstra é que não há receita ou livro de receitas padrão para seleção de variáveis. Todo mundo tem uma abordagem diferente e um conjunto de "melhores" práticas. Depois, há a distinção muito importante entre um modelo teórico ou populacional e um modelo empírico - essas estruturas diferentes raramente se alinham e é fácil confundi-las. Sua preocupação com a falta de algo não é infundada, mas a realidade é que uma resposta conclusiva e inequívoca simplesmente não existe. As abordagens que você analisou são amplamente documentadas, escolha uma #

Mike Hunter

Harrell, Flom e Kolassa; está resolvido então.

gung - Restabelece Monica

Re Gelman & Hill's 4 (b): Harrell, RMS , 1º edn, pág. 60: "Um problema final com a seleção de variáveis é ilustrado pela comparação dessa abordagem [sc. Stepwise] com a maneira sensata como muitos economistas desenvolvem modelos de regressão. Os economistas freqüentemente usam a estratégia de excluir apenas as variáveis insignificantes e cujos coeficientes de regressão têm uma direção absurda ". E eu me lembro que Steyerberg ia escrever um artigo sobre isso. [Tentará encontrar a ref. quando tiver chance.]

Scortchi - Restabelece Monica

Respostas:

Andrew Gelman é definitivamente um nome respeitado no mundo estatístico. Seus princípios estão alinhados com algumas das pesquisas de modelagem causal que foram realizadas por outros "grandes nomes" no campo. Mas acho que, dado o seu interesse em pesquisa clínica, você deve consultar outras fontes.

Estou usando a palavra "causal" vagamente (como os outros) porque há uma linha tênue que devemos traçar entre executar "inferência causal" a partir de dados observacionais e afirmar relações causais entre variáveis. Todos concordamos que os ECRs são a principal maneira de avaliar a causalidade. Raramente nos ajustamos a qualquer coisa nesses ensaios de acordo com a suposição de randomização, com poucas exceções ( Senn, 2004 ). Os estudos observacionais têm sua importância e utilidade ( Weiss, 1989 ), e a abordagem contrafactual para inferir dados observacionais é aceita como uma abordagem filosoficamente sólida para fazê-lo ( Höfler, 2005 ). Muitas vezes, aproxima-se muito de perto a eficácia de uso medida em ECRs ( Anglemyer, 2014 ).

Portanto, vou me concentrar em estudos a partir de dados observacionais. Meu argumento de argumentação com as recomendações de Gelman é: todos os preditores de um modelo e sua relação causal postulada entre uma única exposição de interesse e um único resultado de interesse devem ser especificados a priori . Jogar e excluir covariáveis com base em sua relação entre um conjunto de principais descobertas está na verdade induzindo um caso especial da "grade estatística de Munchausen" ( Martin, 1984 ). Algumas revistas (e a tendência está se desenvolvendo) rejeitarão sumariamente qualquer artigo que use regressão gradual para identificar um modelo final ( Babyak, 2004 ), e acho que o problema é visto de maneiras semelhantes aqui.

A lógica para inclusão e exclusão de covariáveis em um modelo é discutida em: Causalidade da Judea Pearl ( Pearl, 2002 ). Talvez seja um dos melhores textos para entender os princípios de inferência estatística, regressão e ajuste multivariado. Também praticamente tudo o que Sanders e a Groenlândia esclarecem é que, em particular, sua discussão sobre confusões é infelizmente lamentável nesta lista de recomendações ( Greenland et al. 1999) Covariáveis específicas podem receber rótulos com base em uma relação gráfica com um modelo causal. Designações como variáveis prognósticas, de confusão ou de precisão justificam a inclusão como covariáveis em modelos estatísticos. Mediadores, colisores ou variáveis além do caminho causal devem ser omitidos. As definições desses termos são rigorosas, com muitos exemplos em causalidade.

Dado este pequeno histórico, abordarei os pontos um a um.

Geralmente, é uma abordagem sólida com uma ressalva MAJOR: essas variáveis NÃO devem ser mediadoras do resultado. Se, por exemplo, você está inspecionando a relação entre tabagismo e condicionamento físico e se ajusta à função pulmonar, isso atenua o efeito do fumo porque seu impacto direto no condicionamento é o de reduzir a função pulmonar. Isso NÃO deveconfundir com confundir onde a terceira variável é causal do preditor de interesse E do resultado do interesse. Os fatores de confusão devem ser incluídos nos modelos. Além disso, o excesso de ajuste pode causar várias formas de viés nas análises. Mediadores e fatores de confusão são considerados como NÃO, por causa do que é encontrado nas análises, mas por causa do que você acredita como o especialista no assunto (PME). Se você tiver 20 observações por variável ou menos ou 20 observações por evento em análises de tempo a evento ou logística, considere métodos condicionais.
Essa é uma excelente abordagem de economia de energia que não é tão complicada quanto o ajuste da pontuação de propensão ou SEM ou análise fatorial. Definitivamente, eu recomendaria fazer isso sempre que possível.
Eu discordo de todo coração. O ponto de ajustar para outras variáveis nas análises é criar estratos para os quais são possíveis comparações. A especificação incorreta de relações de confusão geralmente não leva a análises com viés excessivo; portanto, a confusão residual de termos de interação omitidos não é, na minha experiência, um grande problema. No entanto, você pode considerar os termos de interação entre o preditor de interesse e outras variáveis como uma análise post-hoc. Este é um procedimento de geração de hipóteses que visa refinar todas as descobertas possíveis (ou a falta delas) como a. potencialmente pertencente a um subgrupo ou b. envolvendo uma interação mecanicista entre dois fatores ambientais e / ou genéticos.
Também não concordo com isso de todo o coração. Não coincide com a abordagem confirmatória baseada na análise de regressão. Você é a PME. As análises devem ser informadas pela PERGUNTA e não pelos DADOS. Declare com confiança o que você acredita estar acontecendo, com base em uma representação pictórica do modelo causal (usando um DAG e princípios relacionados de Pearl et al.), Depois escolha os preditores para o seu modelo de interesse, ajuste e discuta. Somente como uma análise secundária você deve considerar essa abordagem, mesmo que seja.

O papel do aprendizado de máquina em tudo isso é altamente discutível. Em geral, o aprendizado de máquina é focado na previsão e não na inferência, abordagens distintas da análise de dados. Você está certo de que a interpretação dos efeitos da regressão penalizada não é facilmente interpretada para uma comunidade não estatística, ao contrário das estimativas de um OLS, onde ICs de 95% e estimativas de coeficiente fornecem uma medida de associação.

A interpretação do coeficiente de um modelo OLS Y ~ X é direta: é uma inclinação, uma diferença esperada em Y comparando grupos que diferem por 1 unidade em X. Em um modelo ajustado multivariado Y ~ X1 + X2, nós o modificamos como condicional inclinação: é uma diferença esperada em Y comparando grupos que diferem por 1 unidade em X1 que têm o mesmo valor de X2. Geometricamente, o ajuste para X2 leva a estratos distintos ou "seções transversais" dos três espaços onde comparamos X1 a Y; em seguida, calculamos a média das descobertas sobre cada um desses estratos. Em R, a coplotfunção é muito útil para visualizar essas relações.

AdamO
fonte

Realmente aprecio o seu comentário detalhado - nunca tive ninguém para responder minhas perguntas com tanto detalhe antes. Estou passando seus links agora!

Sharper_image 14/07

(+1) No ponto 1: G&H dizem que estes são "princípios gerais para a construção de modelos de regressão para previsão " [meu itálico], portanto, sua advertência não precisa ser aplicada. (Talvez aqueles raros fumantes com boa função pulmonar realmente tendam a ser especialmente aptos.) Quando eles começam a discutir modelos causais, fazem o mesmo ponto (cap. 9.7).

Scortchi - Restabelece Monica

(+1) Resposta excelente, AdamO! Apreciando que você já fez uma enorme quantidade de trabalho, gostaria de saber mais sobre o status atual de adoção da política de periódico que menciona. Eu ainda fico com raiva ao ver a palavra 'stepwise' nos jornais do JAMA, pelo menos. Você pode citar um editorial sobre essa política?

David C. Norris

@ DavidC.Norris "Medição educacional e psicológica" é a revista em questão e, infelizmente, o artigo da Babyak discute apenas a regressão automatizada por etapas. Eu já vi em alguns artigos autores que discutem sua abordagem "prática" para incluir e reformar modelos como "gradual" (embora não automatizado). Eu argumentaria que eles descreveram corretamente o procedimento que usaram, mas ainda tenho graves contenções com essa abordagem.

21816 AdamO

1/2 +1 Resposta adorável. Uma pequena coisa: "Os fatores de confusão devem ser incluídos nos modelos". Dependendo das relações causais específicas envolvidas, isso pode desviar as associações de uma estimativa causal. Por exemplo, no DAG descrito por

, ou

, e (iii) antes de

L \to A

$L \rightarrow A$

U_{1} \to L

$U_{1} \rightarrow L$

U_{1} \to A

$U_{1} \rightarrow A$

U_{2} \to Y

$U_{2} \rightarrow Y$

U_{2} \to L

$U_{2} \rightarrow L$

L

$L$

A

$A$

Y

$Y$

A

$A$

Y

$Y$

A

$A$

Y

$Y$

E [Y | A, L]

$E[Y|A,L]$

A - U_{1} - L - U_{2} - Y

$A-U_{1}-L-U_{2}-Y$

Esta pergunta magnífica e a resposta abrangente da @ AdamO são um excelente exemplo de como o CV renova regularmente minha fé na humanidade. Vou apontar aqui principalmente para oferecer algumas maneiras de apreciar essa resposta (e a pergunta do OP) em um contexto mais amplo.

Em primeiro lugar, atrevo-me a afirmar que todos os conselhos confiáveis sobre prática estatística é de cautela na natureza - pro scriptive em vez de pré scriptive. O ponto 3 de Gelman & Hill, por exemplo, embora seja superficialmente um conselho para fazer algo ativamente ("considerar"), é realmente melhor entendido como uma advertência contra a falta de consideração de interações com efeitos poderosos. Entendido intuitivamente como um apelo à intuição relacionada à escolha dos termos mais importantes em uma expansão da série Taylor (multivariada) , parece-me inquestionável.

Em segundo lugar, enquanto o OP está ocupado obtendo uma educação melhor do que a maioria dos bioestatísticos de doutorado (seguindo as citações de AdamO), o OP também pode buscar os Modelos Estatísticos e Inferência Causal de David A. Friedman [1], onde um desafio saudável será descobriram a presunção de que a regressão deve ser nossa principal ferramenta na pesquisa clínica. Eu recomendo especialmente o capítulo 3, "Modelos estatísticos e couro para sapatos", que também está disponível em forma publicada anteriormente [2] aqui . (Não deixe que o nome do diário o desligue; as principais lições tiradas são das investigações de John Snow sobre a cólera. Veja também esta resposta , onde essas lições são apresentadas em mais detalhes.)

Finalmente - e talvez esse seja realmente um corolário para Freedman - deve-se mencionar que o exemplo de 'conclusões' oferecidas pelo OP realmente pertenceria à seção Resultados do artigo. Seria mais saudável considerar o mais cedo possível como seriam redigidas as seções reais de Conclusões e Discussão do artigo, de modo a serem acessíveis aos médicos, à mídia e até ao número crescente de pacientes e seus advogados leigos que heroicamente trabalho para ler a literatura médica. Manter o foco nesse ponto final moldará de forma útil o trabalho técnico da análise estatística e o manterá fundamentado na realidade do mundo que seu objetivo é descrever e nas necessidades que ele pretende atender.

Freedman, David, David Collier, Jasjeet Singh Sekhon e Philip B. Stark. Modelos estatísticos e inferência causal: um diálogo com as ciências sociais. Cambridge; Nova York: Cambridge University Press, 2010.
Freedman, David A. "Modelos Estatísticos e Couro de Sapatos". Sociological Methodology 21 (1991): 291–313. doi: 10.2307 / 270939.

David C. Norris
fonte