Eu estou querendo saber qual é o valor em pegar uma variável preditora contínua e dividi-la (por exemplo, em quintis), antes de usá-la em um modelo.
Parece-me que, ao separar a variável, perdemos informações.
- É só assim que podemos modelar efeitos não lineares?
- Se mantivéssemos a variável contínua e não fosse realmente uma relação linear direta, precisaríamos criar algum tipo de curva para melhor ajustar os dados?
Respostas:
Você está certo em ambos os aspectos. Consulte a página de Frank Harrell aqui para obter uma longa lista de problemas com o binning de variáveis contínuas. Se você usa algumas caixas, joga muita informação nos preditores; se você usa muitos, tende a se mexer no que deveria ser um relacionamento suave, se não linear, e usa muitos graus de liberdade. Geralmente é melhor usar polinômios ( ) ou splines (polinômios por partes que se juntam sem problemas) para os preditores. Binning é realmente apenas uma boa idéia quando você espera uma descontinuidade na resposta nos pontos de corte - digamos que a temperatura em que algo ferve ou a idade legal para dirigir - e quando a resposta é plana entre eles.x + x2+ …
O valor? - bem, é uma maneira rápida e fácil de levar em consideração a curvatura sem ter que pensar nisso, e o modelo pode ser bom o suficiente para o que você está usando. Tende a funcionar bem quando há muitos dados em comparação com o número de preditores, cada um deles dividido em várias categorias; neste caso, dentro de cada faixa preditora, o intervalo de resposta é pequeno e a resposta média é determinada com precisão.
[Editar em resposta aos comentários:
Às vezes, existem pontos de corte padrão usados em um campo para uma variável contínua: por exemplo, na medicina, as medições da pressão arterial podem ser categorizadas como baixa, média ou alta. Pode haver muitas boas razões para usar esses interruptores quando você apresenta ou aplica um modelo. Em particular, as regras de decisão geralmente se baseiam em menos informações do que as que entram em um modelo e podem ser simples de aplicar. Mas não se segue que esses pontos de corte são apropriados para separar os preditores quando você se encaixa no modelo.
Suponha que alguma resposta varie continuamente com a pressão sanguínea. Se você definir um grupo de pressão alta como um preditor em seu estudo, o efeito que está estimando é a resposta média sobre as pressões sanguíneas específicas dos indivíduos desse grupo. É nãouma estimativa da resposta média de pessoas com pressão alta na população em geral ou de pessoas no grupo de pressão alta em outro estudo, a menos que você tome medidas específicas para fazê-lo. Se a distribuição da pressão arterial na população em geral for conhecida, como eu imagino, será melhor calcular a resposta média de pessoas com pressão alta na população em geral, com base nas previsões do modelo com pressão arterial como variável contínua. A distribuição bruta torna seu modelo apenas aproximadamente generalizável.
Em geral, se você tiver dúvidas sobre o comportamento da resposta entre pontos de corte, ajuste o melhor modelo possível primeiro e use-o para respondê-las.]
[No que diz respeito à apresentação; Eu acho que isso é um arenque vermelho:
(1) A facilidade de apresentação não justifica más decisões de modelagem. (E nos casos em que o binning é uma boa decisão de modelagem, não precisa de justificativa adicional.) Certamente isso é evidente. Ninguém nunca recomenda tirar uma interação importante de um modelo porque é difícil de apresentar.
(2) Seja qual for o tipo de modelo que você se encaixa, você ainda pode apresentar seus resultados em termos de categorias, se achar que isso ajudará na interpretação. Apesar ...
(3) Você deve ter cuidado para garantir que isso não ajude a erros de interpretação, pelas razões expostas acima.
(4) Na verdade, não é difícil apresentar respostas não lineares. A opinião pessoal, claramente, e o público diferem; mas nunca vi um gráfico de valores de resposta ajustados versus valores preditivos confundirem alguém apenas porque é curvado. Interações, logits, efeitos aleatórios, multicolinearidade, ... - tudo isso é muito mais difícil de explicar.]
[Um ponto adicional levantado pelo @Roland é a exatidão da medição dos preditores; ele está sugerindo, eu acho, que a categorização possa ser apropriada quando não forem especialmente precisas. O senso comum pode sugerir que você não melhore as questões, declarando-as com menos precisão, e o senso comum seria correto: MacCallum et al (2002), "Sobre a prática da dicotomização de variáveis quantitativas", Psychological Methods , 7 , 1, pp. 17-19.]
fonte
Uma parte desta resposta que aprendi desde que perguntei é que não usar binning e binning procura responder a duas perguntas um pouco diferentes - Qual é a alteração incremental nos dados? e Qual é a diferença entre o menor e o maior? .
Não o binning diz "esta é uma quantificação da tendência vista nos dados" e o binning diz "não tenho informações suficientes para dizer o quanto isso muda a cada incremento, mas posso dizer que o topo é diferente do fundo" .
fonte
Como clínico, acho que a resposta depende do que você deseja fazer. Se você deseja fazer o melhor ajuste ou o melhor ajuste, pode usar variáveis contínuas e ao quadrado.
Se você deseja descrever e comunicar associações complicadas para um público não orientado estatisticamente, o uso de variáveis categorizadas é melhor, aceitando que você possa fornecer alguns resultados ligeiramente tendenciosos no último decimal. Prefiro usar pelo menos três categorias para mostrar associações não lineares. A alternativa é produzir gráficos e resultados previstos em determinados pontos. Pode ser necessário produzir uma família de gráficos para cada covariável contínua que possa ser interessante. Se você tem medo de ter muito viés, acho que pode testar os dois modelos e ver se a diferença é importante ou não. Você precisa ser prático e realista.
Acho que podemos perceber que, em muitas situações clínicas, nossos cálculos não se baseiam em dados exatos e, por exemplo, quando prescrevo um medicamento a um adulto, não o faço com mgs por quilo exato (a parábola da escolha entre cirurgia e tratamento médico) é apenas um absurdo).
fonte
Como os pôsteres anteriores mencionaram, geralmente é melhor evitar dicotomizar uma variável contínua. No entanto, em resposta à sua pergunta, há casos em que a dicotomização de uma variável contínua confere vantagens.
Por exemplo, se uma determinada variável contém valores ausentes para uma proporção significativa da população, mas é conhecida por ser altamente preditiva e os próprios valores ausentes apresentarem valor preditivo. Por exemplo, em um modelo de pontuação de crédito, considere uma variável, digamos, saldo médio de crédito rotativo (que concedeu, não é tecnicamente contínuo, mas nesse caso reflete uma distribuição normal próxima o suficiente para ser tratada como tal), que contém valores ausentes para cerca de 20% do pool de solicitantes em um determinado mercado-alvo. Nesse caso, os valores ausentes para essa variável representam uma classe distinta - aqueles que não têm uma linha de crédito rotativo aberta; esses clientes exibirão um comportamento totalmente diferente em comparação com, digamos, aqueles com linhas de crédito rotativas disponíveis, mas que não têm saldo regularmente.
Outro benefício da dicotomização: ela pode ser usada para mitigar os efeitos de valores discrepantes significativos que distorcem os coeficientes, mas representam casos realistas que precisam ser tratados. Se os valores discrepantes não diferem muito dos outros valores nos percentis mais próximos, mas distorcem os parâmetros o suficiente para afetar a precisão marginal, pode ser benéfico agrupá-los com valores que exibam efeitos semelhantes.
Às vezes, uma distribuição se presta naturalmente a um conjunto de classes; nesse caso, a dicotomização realmente oferece um grau de precisão mais alto do que uma função contínua.
Além disso, como mencionado anteriormente, dependendo do público, a facilidade de apresentação pode superar as perdas de precisão. Para usar a pontuação de crédito novamente como exemplo, na prática, o alto grau de regulamentação é um argumento prático para discretizar às vezes. Embora o maior grau de precisão possa ajudar o credor a reduzir as perdas, os profissionais também devem considerar que os modelos precisam ser facilmente compreendidos pelos reguladores (que podem solicitar milhares de páginas de documentação do modelo) e pelos consumidores, aos quais, se for negado crédito, têm o direito legal de explicação do porquê.
Tudo depende do problema em questão e dos dados, mas certamente há casos em que a dicotomização tem seus méritos.
fonte
Se uma variável tiver um efeito em um limite específico, crie uma nova variável ao classificar, é uma boa coisa a fazer. Eu sempre mantenho as duas variáveis, a original e a binning, e verifico qual variável é um melhor preditor.
fonte
Sou fã do conselho de Frank Harrell de que os analistas devem resistir à discretização prematura de dados contínuos. E tenho várias respostas no CV e no SO que demonstram como visualizar as interações entre variáveis contínuas, pois acho que essa é uma linha de investigação ainda mais valiosa. No entanto, também tenho experiência no mundo real no mundo médico das barreiras à adesão a esse conselho. Muitas vezes, existem divisões atraentes que os clínicos e não clínicos esperam por "divisões". O "limite superior do normal" convencional é um desses pontos de divisão "naturais". Um é essencialmente examinar primeiro a base estatística de uma relação e depois comunicar a substância das descobertas em termos que seu público espera e pode compreender facilmente. Apesar da minha "alergia" para barplots, são extremamente comuns no discurso científico e médico. Portanto, é provável que o público tenha um padrão cognitivo pronto para processá-los e será capaz de integrar os resultados em sua base de conhecimento.
Além disso, a exibição gráfica de interações modeladas entre formas não lineares de variáveis preditivas requer apresentações de gráficos de contorno ou exibições de estrutura de arame que a maioria do público terá alguma dificuldade em digerir. Eu achei o público médico e o público em geral mais receptivo a apresentações com resultados discretizados e segmentados. Portanto, suponho que a conclusão é que a divisão é feita corretamente após a conclusão da análise estatística; e é feito na fase de apresentação.
fonte
Muitas vezes, a exclusão de variáveis contínuas vem com uma sensação desconfortável de causar danos devido à perda de informações. No entanto, além de limitar a perda de informações, você pode obter informações e obter mais vantagens.
Se você usar binning e obter variáveis categorizadas, poderá aplicar algoritmos de aprendizado que não são aplicáveis a variáveis contínuas. Seu conjunto de dados pode se encaixar melhor em um desses algoritmos, então aqui está seu primeiro benefício.
A idéia de estimar a perda devido ao binning é baseada no artigo "Aprendizagem do PAC com atributos irrelevantes". Suponha que o nosso conceito seja binário para que possamos dividir as amostras em positivos e negativos. Para cada par de amostras negativas e positivas, a diferença de conceito pode ser explicada por uma diferença em um dos recursos (ou não, não é explicável pelos recursos fornecidos). O conjunto das diferenças de recurso é o conjunto de explicações possíveis para a diferença de conceito, portanto, os dados a serem usados para determinar o conceito. Se realizássemos binning e ainda obtivéssemos o mesmo conjunto de explicações para os pares, não perderíamos nenhuma informação necessária (com relação aos algoritmos de aprendizado que funcionam com essas comparações). Se nossa categorização for muito rigorosa, provavelmente teremos um conjunto menor de explicações possíveis, mas poderemos medir com precisão quanto e onde perdemos. Isso nos permitirá trocar o número de posições em relação ao conjunto de explicações.
Até agora, vimos que não podemos perder devido à categorização, mas se considerarmos a aplicação de uma etapa, gostaríamos de nos beneficiar. De fato, podemos nos beneficiar da categorização
Muitos algoritmos de aprendizado que serão solicitados a classificar uma amostra com valores não vistos no conjunto de trens considerarão o valor como "desconhecido". Portanto, obteremos uma caixa de "desconhecido" que inclui TODOS os valores não vistos durante o trem (ou mesmo não vistos o suficiente). Para esses algoritmos, a diferença entre pares de valores desconhecidos não será usada para melhorar a classificação. Compare seus pares após o binning com os pares com desconhecido e veja se o seu binning é útil e você realmente ganhou.
Você pode estimar quão comuns serão os valores desconhecidos, verificando a distribuição dos valores de cada recurso. Os recursos em que os valores que aparecem apenas algumas vezes são uma parte considerável de sua distribuição são bons candidatos ao binning. Observe que, em muitos cenários, você terá muitos recursos desconhecidos, aumentando a probabilidade de que uma amostra contenha valor desconhecido. Algoritmos que tratam todos ou muitos dos recursos são propensos a erros nessas situações.
A. Dhagat e L. Hellerstein, "APA aprendendo com atributos irrelevantes", em 'Proceedings of the IEEE Symp. na Fundação de Ciência da Computação ', 1994. http://citeseer.ist.psu.edu/dhagat94pac.html
fonte