Quando remover variáveis ​​insignificantes?

9

Estou trabalhando no modelo de regressão logística. A partir de agora, você terá acesso a todas as informações necessárias para que você tenha uma experiência de compra agradável e que atenda às suas necessidades. ?

Um sênior meu sugeriu fazer a transformação logarítmica da variável insignificante e procurar correlação. Será que isso conta para verificar sua importância.

model <- glm(Buy ~ a_score + b_score+ c_score+lb+p, data = history, family = binomial)

Todas as variáveis ​​são significativas com 2 ou 3 estrelas, além do a_score, que é mostrado insignificante.


fonte
Qual é o objetivo do seu exercício de construção de modelo? Você está interessado em estatística inferencial, por exemplo, para um artigo acadêmico ou em previsão?
Stephan Kolassa

Respostas:

40

Deixe-me primeiro perguntar: Qual é o objetivo do modelo? Se você está interessado apenas em prever se um cliente comprará, os testes estatísticos de hipóteses realmente não são sua principal preocupação. Em vez disso, você deve validar externamente seu modelo por meio de um procedimento de validação / teste em dados não vistos.

Se, em vez disso, você estiver interessado em examinar quais fatores contribuem para a probabilidade de compra de um cliente, não há necessidade de remover variáveis ​​que falham em rejeitar o nulo (especialmente de maneira gradual). Presumivelmente, você incluiu uma variável em seu modelo porque pensava (por experiência anterior ou opinião de especialista) que ela desempenhava um papel importante em um cliente que decide se comprará. O fato de a variável falhar em rejeitar o nulo não torna seu modelo ruim, apenas significa que sua amostra não detectou um efeito dessa variável. Está perfeitamente bem.

Demetri Pananos
fonte
3
Promovido por excelência da resposta.
James Phillips
7
+1 A remoção de preditores potencialmente relacionados ao resultado (mesmo que "insignificante") é complicada na regressão logística, devido ao seu viés inerente à variável omitida . A remoção de um preditor relacionado ao resultado pode levar a um viés nas estimativas dos coeficientes dos preditores retidos, mesmo que os preditores retidos não estejam correlacionados com o preditor removido.
EdM
3
Esta é realmente uma resposta muito clara.
suavizado
2

Ter um olhar para as páginas de ajuda para step(), drop1()e add1(). Isso ajudará você a adicionar / remover variáveis ​​com base no AIC. No entanto, todos esses métodos são um pouco falhos em sua dependência de caminho. Uma maneira melhor seria usar as funções no pacote penalizado ou glmnet para executar uma regressão do laço.


fonte
-1

Quais são as correlações entre as variáveis ​​independentes? Isso é menos importante para a previsão pura, mas se você deseja obter algumas informações inferenciais, é importante que as variáveis ​​independentes não sejam correlacionadas. Normalmente, quando você usa regressão logística em um ambiente de negócios, as informações inferenciais sobre as variáveis ​​usadas junto com uma boa previsão são o que as partes interessadas estão procurando.

Além disso, outro bom motivo para remover variáveis ​​é a parcimônia do modelo. Algumas razões para isso são para fins de revisão interna, regulamentação legal e facilidade de implementação. Isso faz com que seja altamente desejável encontrar o menor conjunto de variáveis ​​que fornece boas informações de negócios e boas previsões. Por exemplo, se você estiver desenvolvendo um modelo de crédito, todas as variáveis ​​estão sujeitas a uma revisão legal, todas as variáveis ​​precisam estar disponíveis e retornar valores imediatamente quando chamadas para obter o empréstimo, e as partes interessadas (que geralmente não são versadas na construção de modelos) tendem a para não querer olhar para modelos complicados carregados de variáveis.

Também pode ser útil tentar uma floresta aleatória para ter uma idéia da importância das variáveis ​​e também para verificar o poder preditivo com e sem todas as variáveis.

Por fim, você deve ter um bom motivo para transformar uma variável. Lançar todas as transformações em uma variável até encontrar uma que ofereça o resultado desejado é uma boa maneira de obter um modelo de super ajuste que apresenta um desempenho ruim em novos dados.

eps
fonte