Tratamento dos níveis de variáveis categóricas 'Não sei / recusado'
9
Estou modelando a Previsão de Diabetes usando Regressão Logística. O conjunto de dados usado é o Sistema de vigilância de fatores de risco comportamental (BRFSS) do Center for Disease Control (CDC). Uma das variáveis independentes é a hipertensão arterial. É categórico com os seguintes níveis 'Sim', 'Não', 'Não sei / Recusado'. Devo remover essas linhas com 'Não sei / Recusado' ao criar o modelo? Que diferença faz para manter ou remover essas linhas do modelo?
Eu estava pensando exatamente sobre a mesma pergunta ao analisar os dados mais recentes da National Hospital Discharge Survey . Várias variáveis têm valores ausentes substanciais, como estado civil e tipo de procedimento. Essa questão me chamou a atenção porque essas categorias apresentaram efeitos fortes (e significativos) na maioria das análises de regressão logística que eu estava executando.
Alguém está inclinado a se perguntar por queum código ausente é fornecido. No caso do estado civil, por exemplo, é plausível que o não fornecimento dessas informações possa estar relacionado a fatores importantes, como status socioeconômico ou tipo de doença. No seu caso de pressão alta, devemos perguntar por que o valor não seria conhecido ou recusado? Isso pode estar relacionado a práticas da instituição (talvez refletindo procedimentos relaxados) ou mesmo a indivíduos (como crenças religiosas). Essas características, por sua vez, podem estar associadas ao diabetes. Portanto, parece prudente continuar como você tem, em vez de codificar esses valores como ausentes (excluindo-os completamente da análise) ou tentando imputá-los (o que efetivamente mascara as informações que eles fornecem e pode influenciar os resultados). Realmente não é mais difícil de fazer: você apenas precisa garantir que essa variável seja tratada como categórica e obterá mais um coeficiente no resultado da regressão. Além disso, suspeito que os conjuntos de dados BRFSS sejam grandes o suficiente para que você não precise se preocupar com energia.
Além disso, a DK pode ter um significado real, ou seja, esses indivíduos não têm consciência da saúde e podem estar em risco.
precisa
2
Primeiro, você deve pensar se os dados ausentes estão faltando completamente aleatoriamente (MCAR), ausentes aleatoriamente (MAR) ou ausentes não aleatórios (MNAR), pois a exclusão (em outras palavras, análise de caso completo) pode levar a resultados tendenciosos. Alternativas são ponderação de probabilidade inversa, imputação múltipla, método de probabilidade total e métodos duplamente robustos. A imputação múltipla com equações encadeadas (MICE) é frequentemente o caminho mais fácil.
Obrigado. São dados de pesquisa e não tenho certeza se é MAR ou MNAR. Por exemplo, existe uma variável que diz 1) "se uma pessoa tem diabetes ou não?" e outra variável (2) Se ele está tomando insulina? Vejo que a variável (2) possui entradas apenas quando a variável (1) é 'Sim' (ou seja, uma pessoa é diabética). Caso contrário, (2) está vazia. Além disso (2) tem 'sim', 'Não', 'Não sei / Recusado' como respostas para o caso diabético. Então, como trato as células vazias e as respostas da pesquisa 'Não sei / recusado'?
usar o seguinte comando
Gostaria de aprender sobre imputação múltipla e estava procurando um material de aprendizado on-line. Você poderia sugerir algum material de aprendizagem para MI?
usar o seguinte comando
0
Você tem algum motivo para pensar que os sujeitos do estudo com diabetes tinham mais ou menos probabilidade de acabar com a resposta DK / R? Caso contrário (e ficaria surpreso ao descobrir que sim), incluir esse preditor no modelo sem excluir esses casos resultará em ruído. Ou seja, você terá menos precisão na sua avaliação de como "sim" versus "não" influencia a probabilidade estimada de diabetes (porque estará tentando modelar a influência de "sim" ou "não" respostas aleatórias DK / R em oposição a apenas "sim" vs. "não"). A opção mais direta é excluir os casos com respostas DK / R. Supondo que suas respostas "sim / não" estavam realmente ausentes aleatoriamente, excluí-las não influenciará sua estimativa da influência do "sim" vs. "não." Essa abordagem, no entanto, reduzirá o tamanho da amostra e, portanto, reduzirá o poder estatístico em relação aos preditores restantes. Se você tem muita DK / R nessa variável, pode atribuir respostas "sim" / "não" por imputação múltipla (sem dúvida a mais, talvez única, estratégia de imputação defensável com valor ausente).
Primeiro, você deve pensar se os dados ausentes estão faltando completamente aleatoriamente (MCAR), ausentes aleatoriamente (MAR) ou ausentes não aleatórios (MNAR), pois a exclusão (em outras palavras, análise de caso completo) pode levar a resultados tendenciosos. Alternativas são ponderação de probabilidade inversa, imputação múltipla, método de probabilidade total e métodos duplamente robustos. A imputação múltipla com equações encadeadas (MICE) é frequentemente o caminho mais fácil.
fonte
Você tem algum motivo para pensar que os sujeitos do estudo com diabetes tinham mais ou menos probabilidade de acabar com a resposta DK / R? Caso contrário (e ficaria surpreso ao descobrir que sim), incluir esse preditor no modelo sem excluir esses casos resultará em ruído. Ou seja, você terá menos precisão na sua avaliação de como "sim" versus "não" influencia a probabilidade estimada de diabetes (porque estará tentando modelar a influência de "sim" ou "não" respostas aleatórias DK / R em oposição a apenas "sim" vs. "não"). A opção mais direta é excluir os casos com respostas DK / R. Supondo que suas respostas "sim / não" estavam realmente ausentes aleatoriamente, excluí-las não influenciará sua estimativa da influência do "sim" vs. "não." Essa abordagem, no entanto, reduzirá o tamanho da amostra e, portanto, reduzirá o poder estatístico em relação aos preditores restantes. Se você tem muita DK / R nessa variável, pode atribuir respostas "sim" / "não" por imputação múltipla (sem dúvida a mais, talvez única, estratégia de imputação defensável com valor ausente).
fonte