Há uma variável nos meus dados que possui 80% dos dados ausentes. Os dados estão ausentes devido à inexistência (ou seja, quanto empréstimo bancário a empresa deve). Me deparei com um artigo dizendo que o método de ajuste de variável fictícia é a solução para esse problema. O que significa que eu preciso transformar essa variável contínua em categórica?
Essa é a única solução? Eu não quero descartar essa variável como penso teoricamente, é importante para minha pergunta de pesquisa.
Os dados estão "ausentes" no sentido de serem desconhecidos ou apenas significam que não há empréstimo (portanto, o valor do empréstimo é zero)? Parece o último, caso em que você precisa de um manequim binário adicional para indicar se existe um empréstimo. Não é necessária nenhuma transformação do montante do empréstimo (além de uma reexpressão contínua, como um log raiz ou iniciado, que pode ser indicado em virtude de outras considerações).
Isso funciona bem em uma regressão. Um exemplo simples é um modelo conceitual do formulário
Eles não serão tratados como desaparecidos, eles irão estimar o valor de nenhum empréstimo. Talvez você tenha feito nenhum empréstimo 'NA' caso em que você precisa recodificar aqueles a 0.
John
2
@ John Obrigado, é exatamente isso que estou recomendando. O objetivo é expressar os valores do empréstimo ( ) de qualquer maneira apropriada (como log (valor + 1)) e definir e para qualquer caso sem empréstimo. Esta é uma técnica padrão em regressão, incluindo regressão logística. XX=0I=1
whuber
3
@ lcl23 Se entendi a situação corretamente, a imputação não faz sentido: os dados "ausentes" não estão faltando; eles indicam que nenhum empréstimo foi contratado.
whuber
1
@Bababurg Eu acho que você pode ter entendido de trás para frente, mas isso não importa - os dois modelos (usando versus ) serão equivalentes. Os valores previstos nos modelos com e sem esse indicador serão diferentes, portanto não entendo o que você está tentando perguntar. Observe que "não detectado" difere profundamente de "não existe"! Se seus limites de detecção forem pequenos o suficiente, não haverá necessidade de introduzir um modelo para eles; e, se houver necessidade, a introdução de um boneco pode ser um pouco grosseira. Nesse caso, considere métodos de análise de dados censurados ou com valor de intervalo. I(X=1)I(X=0)
whuber
1
A resposta está aqui. Quando o manequim é , o valor é adicionado à previsão. Quando o manequim é , esse valor cai. É tudo o que há para isso. 1βI0
whuber
1
Eu acho que você entendeu mal a sugestão do artigo: principalmente porque a sugestão não faz sentido. Você teria dois problemas: como recodificar uma variável e seus valores ainda estão ausentes. O que provavelmente foi sugerido foi criar um indicador de falta .
Uma abordagem de certa forma relevante para lidar com os dados ausentes que correspondem livremente a essa descrição é ajustar um indicador de falta . Esta é certamente uma abordagem simples e fácil, mas em geral é tendenciosa. O viés pode ser ilimitado em sua maldade. O que isso efetivamente faz é encaixar dois modelos e calcular a média de seus efeitos: o primeiro modelo é o modelo totalmente condicional , o segundo é um modelo de fator completo. O modelo totalmente condicional é o modelo de caso completo no qual cada observação é excluída com valores ausentes. Por isso, cabe em um subconjunto de 20% dos dados. O segundo é um ajuste nos 80% restantes, sem se ajustar ao valor ausente. Esse modelo marginal estima os mesmos efeitos que o modelo completo quando não há interação não medida, quando a função de link é recolhível e quando os dados estão ausentes ao acaso (MAR). Esses efeitos são então combinados por uma média ponderada. Mesmo sob condições ideais, sem interações não medidas e faltando dados completamente aleatórios (MCAR), a abordagem do indicador ausente leva a efeitos tendenciosos porque o modelo marginal e o modelo condicional estimam efeitos diferentes. Até as previsões são tendenciosas neste caso.
Uma alternativa muito melhor é usar apenas imputação múltipla. Mesmo quando o fator mais ausente é medido em uma prevalência muito baixa, o MI faz um trabalho relativamente bom ao gerar realizações sofisticadas de quais valores possíveis podem ter sido. A única suposição necessária aqui é MAR.
@MatthewDrury basicamente, "recolhibilidade" significa que o ajuste de variáveis que preveem o resultado, mas não os principais efeitos, aumentará a precisão, mas não alterará o efeito estimado.
AdamO
Legal, obrigado Adam. Não tinha ouvido essa terminologia antes.
Eu acho que você entendeu mal a sugestão do artigo: principalmente porque a sugestão não faz sentido. Você teria dois problemas: como recodificar uma variável e seus valores ainda estão ausentes. O que provavelmente foi sugerido foi criar um indicador de falta .
Uma abordagem de certa forma relevante para lidar com os dados ausentes que correspondem livremente a essa descrição é ajustar um indicador de falta . Esta é certamente uma abordagem simples e fácil, mas em geral é tendenciosa. O viés pode ser ilimitado em sua maldade. O que isso efetivamente faz é encaixar dois modelos e calcular a média de seus efeitos: o primeiro modelo é o modelo totalmente condicional , o segundo é um modelo de fator completo. O modelo totalmente condicional é o modelo de caso completo no qual cada observação é excluída com valores ausentes. Por isso, cabe em um subconjunto de 20% dos dados. O segundo é um ajuste nos 80% restantes, sem se ajustar ao valor ausente. Esse modelo marginal estima os mesmos efeitos que o modelo completo quando não há interação não medida, quando a função de link é recolhível e quando os dados estão ausentes ao acaso (MAR). Esses efeitos são então combinados por uma média ponderada. Mesmo sob condições ideais, sem interações não medidas e faltando dados completamente aleatórios (MCAR), a abordagem do indicador ausente leva a efeitos tendenciosos porque o modelo marginal e o modelo condicional estimam efeitos diferentes. Até as previsões são tendenciosas neste caso.
Uma alternativa muito melhor é usar apenas imputação múltipla. Mesmo quando o fator mais ausente é medido em uma prevalência muito baixa, o MI faz um trabalho relativamente bom ao gerar realizações sofisticadas de quais valores possíveis podem ter sido. A única suposição necessária aqui é MAR.
fonte