Depois de procurar esclarecimentos sobre os coeficientes do modelo linear aqui , tenho uma pergunta de acompanhamento referente a não-significativo (alto valor de p) para coeficientes de níveis de fatores.
Exemplo: se meu modelo linear incluir um fator com 10 níveis e apenas 3 desses níveis tiverem valores significativos de p associados, ao usar o modelo para prever Y, posso optar por não incluir o termo do coeficiente se o sujeito cair em um dos o nível não-significativo?
Mais drasticamente, seria errado agrupar os 7 níveis não significativos em um nível e re-analisar?
statistical-significance
linear-model
model-selection
regression-coefficients
regression-strategies
Trees4theForest
fonte
fonte
Respostas:
Se você estiver inserindo uma variável preditora com vários níveis, você inserirá a variável ou não, não poderá escolher níveis. Convém reestruturar os níveis de sua variável preditora para diminuir o número de níveis (se isso fizer sentido no contexto de sua análise.) No entanto, não tenho certeza se isso causaria algum tipo de invalidação estatística se você colapso dos níveis porque você vê que eles não são significativos.
fonte
@ A resposta de Ellie é boa.
Se você estiver inserindo uma variável com vários níveis, precisará reter todos esses níveis em sua análise. A escolha e a escolha com base no nível de significância influenciarão seus resultados e farão coisas muito estranhas à sua inferência, mesmo que por algum milagre suas estimativas continuem as mesmas, pois você terá brechas nos seus efeitos estimados em diferentes níveis do variável.
Eu consideraria analisar suas estimativas para cada nível do preditor graficamente. Você está vendo uma tendência ao subir de nível ou é irregular?
De um modo geral, também sou contra a recodificação de variáveis com base em testes estatísticos - ou com base puramente em momentos estatísticos. As divisões em sua variável devem ser baseadas em algo mais firme - pontos de corte logicamente significativos, interesse no campo em um ponto de transição específico etc.
fonte
Expandindo as duas boas respostas que você já obteve, vejamos isso de maneira substantiva. Suponha que sua variável dependente seja (digamos) renda e sua variável independente seja (digamos) etnia, com níveis, por definições do censo (Branco, Preto / Afr.Am., Am. Indiano / Alasca Nativo, Asiático, Nativo do Havaí / Pac Islander, outro e multirracial). Digamos que você codifique fictício com White sendo a categoria de referência e você terá
Se você estiver fazendo este estudo na cidade de Nova York, provavelmente terá muito poucos nativos havaianos / das ilhas do Pacífico. Você pode optar por incluí-los (se houver) com os outros. No entanto, você não pode usar a equação completa e simplesmente não incluir esse coeficiente. Então a interceptação estará errada, e também quaisquer valores previstos para a renda.
Mas como você deve combinar categorias?
Como os outros disseram, tem que fazer sentido .
fonte
Para dar uma opinião diferente: por que não incluí-la como efeito aleatório? Isso deve penalizar esses níveis com suporte fraco e garantir que o tamanho do efeito seja mínimo. Dessa forma, você pode mantê-los todos sem se preocupar em obter previsões tolas.
E sim, isso é mais motivado pela visão bayesiana de efeitos aleatórios do que pela visão "amostra de todos os níveis possíveis" de efeitos aleatórios.
fonte
Eu também queria saber se eu poderia combinar categorias não significativas com a categoria de referência. As seguintes declarações no livro "Mineração de dados para Business Intelligence: conceitos, técnicas e aplicativos no Microsoft Office Excel® com XLMiner®, 2ª edição de Galit Shmueli, Nitin R. Patel, Peter C. Bruce", p87-89 (Dimensão Seção de redução) ( resultado de pesquisa do Google ) parecem apoiar a segunda frase da resposta de @ Ellie:
No entanto, pretendo verificar com especialistas no assunto se a combinação das categorias faz sentido lógico (como está implícito nas respostas / comentários anteriores, por exemplo, @Fomite, @gung).
fonte