Eu tenho um modelo linear clássico, com 5 possíveis regressores. Eles não estão correlacionados entre si e têm uma correlação bastante baixa com a resposta. Cheguei a um modelo em que três dos regressores têm coeficientes significativos para sua estatística t (p <0,05). A adição de uma ou das duas variáveis restantes fornece valores de p> 0,05 para a estatística t, para as variáveis adicionadas. Isso me leva a acreditar que o modelo de 3 variáveis é "melhor".
No entanto, usando o comando anova (a, b) em R, onde a é o modelo de 3 variáveis eb é o modelo completo, o valor de p para a estatística F é <0,05, o que me diz para preferir o modelo completo sobre a variável 3 modelo. Como posso conciliar essas aparentes contradições?
Obrigado PS Edit: Alguns antecedentes. Isso é tarefa de casa, então não vou postar detalhes, mas não temos detalhes do que os regressores representam - eles são apenas numerados de 1 a 5. Somos solicitados a "derivar um modelo apropriado, justificando".
fonte
Respostas:
O problema começou quando você procurou um modelo reduzido e usou os dados em vez do conhecimento do assunto para escolher os preditores. A seleção gradual de variáveis sem shinkage simultâneo para penalizar a seleção de variáveis, embora frequentemente usada, é uma abordagem inválida. Muito foi escrito sobre isso. Não há razão para confiar que o modelo de três variáveis seja "melhor" e não há razão para não usar a lista original de preditores pré-especificados. Os valores P calculados após o uso de valores P para selecionar variáveis não são válidos. Isso foi chamado de "mergulho duplo" na literatura de imagens funcionais.
Aqui está uma analogia. Suponha que alguém esteja interessado em comparar 6 tratamentos, mas usa testes t em pares para escolher quais tratamentos são "diferentes", resultando em um conjunto reduzido de 4 tratamentos. O analista então testa uma diferença geral com 3 graus de liberdade. Este teste F terá um erro do tipo I. O teste F original com 5 df é bastante válido.
Consulte http://www.stata.com/support/faqs/stat/stepwise.html e regressão por etapas para obter mais informações.
fonte
Uma resposta seria "isso não pode ser feito sem o conhecimento do assunto". Infelizmente, isso provavelmente lhe dará um F na sua tarefa. A menos que eu fosse seu professor. Então obteria um A.
Então tem
Bem, se você SABE disso (isto é, o instrutor lhe disse) e se por "independente" você quer dizer "não relacionado ao DV", sabe que o melhor modelo é aquele sem preditores e sua intuição está correta.
fonte
Você pode tentar fazer a validação cruzada. Escolha um subconjunto de sua amostra, encontre o modelo "melhor" para esse subconjunto usando testes F ou t e aplique-o ao conjunto de dados completo (a validação cruzada completa pode ser mais complicada que isso, mas seria um bom começo). Isso ajuda a aliviar alguns dos problemas de teste gradual.
Veja uma nota sobre equações de regressão de triagem de David Freedman para uma simulação bonitinha dessa idéia.
fonte
Eu realmente gosto do método usado no
caret
pacote: eliminação de recursos recursivos. Você pode ler mais sobre isso na vinheta , mas aqui está o processo básico:A idéia básica é usar um critério (como estatística t) para eliminar variáveis sem importância e ver como isso melhora a precisão preditiva do modelo. Você envolve a coisa toda em um loop de reamostragem, como validação cruzada. Aqui está um exemplo, usando um modelo linear para classificar variáveis de maneira semelhante à que você descreveu:
Neste exemplo, o algoritmo detecta que existem 3 variáveis "importantes", mas obtém apenas 2 delas.
fonte