Pelo que entendi, a seleção de variáveis com base em valores-p (pelo menos no contexto de regressão) é altamente falha. Parece que a seleção de variáveis com base no AIC (ou similar) também é considerada defeituosa por alguns, por razões semelhantes, embora isso pareça um pouco obscuro (por exemplo, veja minha pergunta e alguns links sobre este tópico aqui: O que exatamente é "seleção de modelo por etapas"? )
Mas digamos que você opte por um desses dois métodos para escolher o melhor conjunto de preditores no seu modelo.
Burnham e Anderson 2002 (Seleção de modelos e inferência multimodal: uma abordagem prática da teoria da informação, página 83) afirmam que não se deve misturar a seleção de variáveis com base na AIC com a baseada no teste de hipóteses : "Testes de hipóteses nulas e abordagens teóricas da informação devem não podem ser usados juntos; são paradigmas de análise muito diferentes ".
Por outro lado, Zuur et al. 2009 (modelos de efeitos mistos com extensões em ecologia com R, página 541) parecem advogar o uso da AIC para encontrar primeiro o modelo ideal e, em seguida, realizar "ajustes finos" usando testes de hipótese : "A desvantagem é que a AIC pode ser conservadora , e talvez você precise aplicar alguns ajustes (usando procedimentos de teste de hipóteses da abordagem um) depois que a AIC tiver selecionado um modelo ideal ".
Você pode ver como isso deixa confuso o leitor dos dois livros sobre qual abordagem seguir.
1) São apenas "campos" diferentes de pensamento estatístico e um tópico de desacordo entre estatísticos? Uma dessas abordagens está simplesmente "desatualizada" agora, mas foi considerada apropriada no momento da redação deste artigo? Ou é alguém simplesmente errado desde o início?
2) Haveria um cenário em que essa abordagem seria apropriada? Por exemplo, eu venho de um contexto biológico, onde muitas vezes estou tentando determinar quais variáveis, se houver alguma, parecem afetar ou direcionar minha resposta. Muitas vezes tenho várias variáveis explicativas candidatas e estou tentando descobrir quais são "importantes" (em termos relativos). Observe também que o conjunto de variáveis preditoras de candidatos já está reduzido àquelas consideradas com alguma relevância biológica, mas isso ainda pode incluir de 5 a 20 preditores candidatos.
Respostas:
Uma resposta curta.
A abordagem de fazer seleção ou ajuste de modelo orientado a dados e , em seguida, usar métodos inferenciais padrão no modelo selecionado / ajustado (à la Zuur et al. E muitos outros ecologistas respeitados, como Crawley), sempre fornecerá resultados super- otimistas : confiança excessivamente estreita intervalos (baixa cobertura), valores de p excessivamente pequenos (erro alto do tipo I). Isso ocorre porque os métodos inferenciais padrão assumem que o modelo é especificado a priori ; eles não levam em consideração o processo de ajuste do modelo.
É por isso que pesquisadores como Frank Harrell ( Estratégias de Modelagem de Regressão ) desaprovam fortemente as técnicas de seleção orientada a dados, como a regressão por etapas, e alertam que é preciso fazer qualquer redução na complexidade do modelo ("redução de dimensão", por exemplo, computando um PCA das variáveis preditivas e selecionando os primeiros eixos PCA como preditores), observando apenas as variáveis preditivas.
Se você estiver interessado apenas em encontrar o melhor modelo preditivo (e não estiver interessado em qualquer tipo de estimativa confiável da incerteza de sua previsão, que se enquadra no campo da inferência!), O ajuste do modelo orientado a dados é bom (embora seleção gradual raramente é a melhor opção disponível); Os algoritmos de aprendizado de máquina / aprendizado estatístico fazem muitos ajustes para tentar obter o melhor modelo preditivo. O erro "teste" ou "fora da amostra" deve ser avaliado em uma amostra separada e retida ou qualquer método de ajuste precisa ser incorporado a um procedimento de validação cruzada.
Parece ter havido evolução histórica nas opiniões sobre esse tópico; muitos livros clássicos de estatística, especialmente aqueles que se concentram na regressão, apresentam abordagens passo a passo seguidas de procedimentos inferenciais padrão, sem levar em consideração os efeitos da seleção de modelos [citação necessário ...]
Existem muitas maneiras de quantificar a importância das variáveis e nem todas caem na armadilha da seleção pós-variável.
fonte
Eu venho de uma formação biológica e sou um bioestatístico contratado, trabalhando em um hospital universitário. Eu li muito sobre isso, especialmente recentemente, incluindo especialmente as opiniões de Harrell sobre o www e seu livro Regression Modeling Strategies. Não o cito mais, mas falando por experiência própria: é altamente relacionado ao campo, acho que este é o primeiro nível que deve ser levado em consideração. O segundo nível seria obter uma boa abordagem racional, o que significa que seus preditores devem ter um significado significativo para expressar o que você deseja prever, por experiência científica. A terceira seria contabilizar as interações, que são super cruciais e podem ser abordadas pela abordagem estatística adotada ou por informações. Apenas o quarto é o método escolhido, no meu caso com dados hospitalares, que muitas vezes tem cerca de x * 10 ^ 3 pontos de dados ex * x 10 ^ 1 observações em
fonte