Dados correlacionados de alta dimensão e principais recursos / covariáveis ​​descobertos; teste de múltiplas hipóteses?

9

Eu tenho um conjunto de dados com cerca de 5.000 recursos / covariáveis ​​frequentemente correlacionados e uma resposta binária. Os dados foram dados para mim, eu não os coletei. Uso Lasso e aumento de gradiente para construir modelos. Eu uso a validação cruzada iterada e aninhada. Relato os maiores coeficientes 40 (absolutos) de Lasso e as 40 características mais importantes no gradiente de árvores reforçadas (não havia nada de especial em 40; parecia apenas uma quantidade razoável de informações). Também relato a variação dessas quantidades nas dobras e nas iterações do CV.

Eu meio que penso nas características "importantes", sem fazer declarações sobre valores-p, causalidade ou algo assim, mas, em vez disso, considero esse processo uma espécie de insight - embora imperfeito e meio aleatório - sobre algum fenômeno.

Supondo que eu tenha feito tudo isso corretamente (por exemplo, validação cruzada executada corretamente, dimensionada para laço), essa abordagem é razoável? Existem problemas com, por exemplo, teste de múltiplas hipóteses, análise post hoc, descoberta falsa? Ou outros problemas?

Objetivo

Prever a probabilidade de um evento adverso

  • Acima de tudo, estime a probabilidade com precisão
  • Mais pequeno - como verificação de sanidade, mas também para talvez revelar alguns preditores novos que poderiam ser mais investigados, inspecione os coeficientes e as importâncias, como mencionado acima.

Consumidor

  • Pesquisadores interessados ​​em prever este evento e as pessoas que acabam tendo que corrigi-lo, se ocorrer

O que eu quero que eles tirem disso

  • Dê a eles a capacidade de prever o evento, se desejar repetir o processo de modelagem, conforme descrito, com seus próprios dados.

  • Lançar alguma luz sobre preditores inesperados. Por exemplo, pode acontecer que algo completamente inesperado seja o melhor preditor. Os modeladores de outros lugares, portanto, podem considerar mais seriamente o referido preditor.

user0
fonte
Seria útil saber qual é a intenção aqui. Você fez essas coisas, por quê? Quem é o consumidor e o que você deseja que eles tirem da análise?
Matthew Drury

Respostas:

2

Não há problemas com a precisão das previsões. A incerteza em suas previsões é bem estimada por validação cruzada. Talvez uma ressalva seja a de que, se você testar muitas configurações de parâmetros, superestimar a precisão, portanto, use um conjunto de validação para estimar a precisão do seu modelo final. Além disso, seus dados devem ser representativos dos dados em que você fará previsões.

Está claro para você, e deve ficar claro para o leitor, que seus preditores não são causas do efeito, são apenas preditores que fazem uma boa previsão e funcionam bem empiricamente. Embora eu concorde totalmente com sua cautela, inferir qualquer causa a partir de dados observacionais é problemático em qualquer caso. Coisas como significado são conceitos "válidos" em estudos bem projetados e controlados e, fora disso, são apenas ferramentas que você e outros devem interpretar com sabedoria e cautela. Pode haver causas comuns, efeitos espúrios, mascaramentos e outras coisas acontecendo em uma regressão linear normal com intervalos de confiança relatados, bem como em um modelo de laço, bem como em um modelo de árvore com gradiente.

Gijs
fonte