Qual é o benefício de dividir uma variável preditora contínua?

78

Eu estou querendo saber qual é o valor em pegar uma variável preditora contínua e dividi-la (por exemplo, em quintis), antes de usá-la em um modelo.

Parece-me que, ao separar a variável, perdemos informações.

  • É só assim que podemos modelar efeitos não lineares?
  • Se mantivéssemos a variável contínua e não fosse realmente uma relação linear direta, precisaríamos criar algum tipo de curva para melhor ajustar os dados?
Tom
fonte
12
1) Não. Você está certo que o binning perde informações. Deve ser evitado, se possível. 2) Geralmente, a função curva que é consistente com a teoria por trás dos dados é preferida.
O_Devinyak
8
Eu não sei sobre os benefícios, mas há uma série de perigos amplamente reconhecidas
Glen_b
2
Um argumento relutante, ocasionalmente: pode simplificar a interpretação clínica e a apresentação dos resultados - por exemplo. a pressão arterial é geralmente um preditor quadrático e um clínico pode apoiar o uso de pontos de corte para pressão arterial baixa, normal e alta e pode estar interessado em comparar esses grupos amplos.
User20650
4
@ user20650: Não sei bem se entendi você, mas não seria melhor se encaixar no melhor modelo possível e, em seguida, use as previsões desse modelo para dizer o que você quer dizer sobre grupos amplos? O 'grupo de pressão alta' no meu estudo não terá necessariamente a mesma distribuição de pressão que a população em geral, portanto seus resultados não serão generalizados.
Scortchi - Reinstate Monica
7
A interpretação clínica simplificada é uma miragem. As estimativas de efeitos de variáveis ​​contínuas categorizadas não têm interpretação conhecida.
Frank Harrell

Respostas:

64

Você está certo em ambos os aspectos. Consulte a página de Frank Harrell aqui para obter uma longa lista de problemas com o binning de variáveis ​​contínuas. Se você usa algumas caixas, joga muita informação nos preditores; se você usa muitos, tende a se mexer no que deveria ser um relacionamento suave, se não linear, e usa muitos graus de liberdade. Geralmente é melhor usar polinômios ( ) ou splines (polinômios por partes que se juntam sem problemas) para os preditores. Binning é realmente apenas uma boa idéia quando você espera uma descontinuidade na resposta nos pontos de corte - digamos que a temperatura em que algo ferve ou a idade legal para dirigir - e quando a resposta é plana entre eles.x+x2+...

O valor? - bem, é uma maneira rápida e fácil de levar em consideração a curvatura sem ter que pensar nisso, e o modelo pode ser bom o suficiente para o que você está usando. Tende a funcionar bem quando há muitos dados em comparação com o número de preditores, cada um deles dividido em várias categorias; neste caso, dentro de cada faixa preditora, o intervalo de resposta é pequeno e a resposta média é determinada com precisão.

[Editar em resposta aos comentários:

Às vezes, existem pontos de corte padrão usados ​​em um campo para uma variável contínua: por exemplo, na medicina, as medições da pressão arterial podem ser categorizadas como baixa, média ou alta. Pode haver muitas boas razões para usar esses interruptores quando você apresenta ou aplica um modelo. Em particular, as regras de decisão geralmente se baseiam em menos informações do que as que entram em um modelo e podem ser simples de aplicar. Mas não se segue que esses pontos de corte são apropriados para separar os preditores quando você se encaixa no modelo.

Suponha que alguma resposta varie continuamente com a pressão sanguínea. Se você definir um grupo de pressão alta como um preditor em seu estudo, o efeito que está estimando é a resposta média sobre as pressões sanguíneas específicas dos indivíduos desse grupo. É nãouma estimativa da resposta média de pessoas com pressão alta na população em geral ou de pessoas no grupo de pressão alta em outro estudo, a menos que você tome medidas específicas para fazê-lo. Se a distribuição da pressão arterial na população em geral for conhecida, como eu imagino, será melhor calcular a resposta média de pessoas com pressão alta na população em geral, com base nas previsões do modelo com pressão arterial como variável contínua. A distribuição bruta torna seu modelo apenas aproximadamente generalizável.

Em geral, se você tiver dúvidas sobre o comportamento da resposta entre pontos de corte, ajuste o melhor modelo possível primeiro e use-o para respondê-las.]

[No que diz respeito à apresentação; Eu acho que isso é um arenque vermelho:

(1) A facilidade de apresentação não justifica más decisões de modelagem. (E nos casos em que o binning é uma boa decisão de modelagem, não precisa de justificativa adicional.) Certamente isso é evidente. Ninguém nunca recomenda tirar uma interação importante de um modelo porque é difícil de apresentar.

(2) Seja qual for o tipo de modelo que você se encaixa, você ainda pode apresentar seus resultados em termos de categorias, se achar que isso ajudará na interpretação. Apesar ...

(3) Você deve ter cuidado para garantir que isso não ajude a erros de interpretação, pelas razões expostas acima.

(4) Na verdade, não é difícil apresentar respostas não lineares. A opinião pessoal, claramente, e o público diferem; mas nunca vi um gráfico de valores de resposta ajustados versus valores preditivos confundirem alguém apenas porque é curvado. Interações, logits, efeitos aleatórios, multicolinearidade, ... - tudo isso é muito mais difícil de explicar.]

[Um ponto adicional levantado pelo @Roland é a exatidão da medição dos preditores; ele está sugerindo, eu acho, que a categorização possa ser apropriada quando não forem especialmente precisas. O senso comum pode sugerir que você não melhore as questões, declarando-as com menos precisão, e o senso comum seria correto: MacCallum et al (2002), "Sobre a prática da dicotomização de variáveis ​​quantitativas", Psychological Methods , 7 , 1, pp. 17-19.]

Scortchi - Restabelecer Monica
fonte
6
Excelentes comentários sobre uma questão abrangente. É importante fazer propaganda para um pensamento completamente quantitativo aqui. Já existe muita ênfase na passagem de limiares, por exemplo, acima de algum nível de desastre, abaixo de algum nível de conforto.
Nick Cox
14
Desafio qualquer pessoa a mostrar uma validação de quaisquer pontos de corte usados ​​pelos médicos.
precisa saber é o seguinte
Vale ressaltar que essa abordagem de binning tem alguns benefícios em outras áreas - é particularmente popular quando combinada com grandes redes neurais para prever distribuições multimodais, como a orientação do veículo. Veja arxiv.org/abs/1612.00496, por exemplo.
N. MCA.
11

Uma parte desta resposta que aprendi desde que perguntei é que não usar binning e binning procura responder a duas perguntas um pouco diferentes - Qual é a alteração incremental nos dados? e Qual é a diferença entre o menor e o maior? .

Não o binning diz "esta é uma quantificação da tendência vista nos dados" e o binning diz "não tenho informações suficientes para dizer o quanto isso muda a cada incremento, mas posso dizer que o topo é diferente do fundo" .

Tom
fonte
5

Como clínico, acho que a resposta depende do que você deseja fazer. Se você deseja fazer o melhor ajuste ou o melhor ajuste, pode usar variáveis ​​contínuas e ao quadrado.

Se você deseja descrever e comunicar associações complicadas para um público não orientado estatisticamente, o uso de variáveis ​​categorizadas é melhor, aceitando que você possa fornecer alguns resultados ligeiramente tendenciosos no último decimal. Prefiro usar pelo menos três categorias para mostrar associações não lineares. A alternativa é produzir gráficos e resultados previstos em determinados pontos. Pode ser necessário produzir uma família de gráficos para cada covariável contínua que possa ser interessante. Se você tem medo de ter muito viés, acho que pode testar os dois modelos e ver se a diferença é importante ou não. Você precisa ser prático e realista.

Acho que podemos perceber que, em muitas situações clínicas, nossos cálculos não se baseiam em dados exatos e, por exemplo, quando prescrevo um medicamento a um adulto, não o faço com mgs por quilo exato (a parábola da escolha entre cirurgia e tratamento médico) é apenas um absurdo).

Roland
fonte
1
Por que exatamente a analogia é um absurdo? Como categorizar variáveis ​​contínuas nunca produz modelos significativamente piores? Ou porque usar um modelo significativamente pior nunca tem consequências práticas?
Scortchi - Restabelece Monica
9
Simplesmente não é esse o caso da @Roland. As estimativas obtidas dos pontos de corte são apenas simples porque as pessoas não entendem o que as estimativas estimam. Isso ocorre porque eles não estimam uma quantidade científica, ou seja, uma quantidade que tenha significado fora da amostra ou experimento. Por exemplo, a razão de chances alta: baixa ou a diferença média aumentarão se você adicionar pacientes com valores muito altos ou muito baixos ao conjunto de dados. Além disso, o uso de pontos de corte implica que a biologia é descontínua, o que não é o caso.
precisa saber é o seguinte
@ Scortchi Mudar do tratamento médico para o cirúrgico porque é mais fácil de explicar (é mesmo?) Seria como substituir a idade pela altura como variável explicativa.
Roland
Concordo em evitar variáveis ​​dicotomizadas. A medicina clínica não é uma ciência do rock, onde a última casa decimal é importante. Nos modelos em que trabalho, os resultados mudam apenas na última casa decimal se eu usar categorias de idade versus idade como variáveis ​​contínuas e quadráticas, mas aumentar enormemente a compreensão e a comunicabilidade das associações.
Roland
4

Como os pôsteres anteriores mencionaram, geralmente é melhor evitar dicotomizar uma variável contínua. No entanto, em resposta à sua pergunta, há casos em que a dicotomização de uma variável contínua confere vantagens.

Por exemplo, se uma determinada variável contém valores ausentes para uma proporção significativa da população, mas é conhecida por ser altamente preditiva e os próprios valores ausentes apresentarem valor preditivo. Por exemplo, em um modelo de pontuação de crédito, considere uma variável, digamos, saldo médio de crédito rotativo (que concedeu, não é tecnicamente contínuo, mas nesse caso reflete uma distribuição normal próxima o suficiente para ser tratada como tal), que contém valores ausentes para cerca de 20% do pool de solicitantes em um determinado mercado-alvo. Nesse caso, os valores ausentes para essa variável representam uma classe distinta - aqueles que não têm uma linha de crédito rotativo aberta; esses clientes exibirão um comportamento totalmente diferente em comparação com, digamos, aqueles com linhas de crédito rotativas disponíveis, mas que não têm saldo regularmente.

Outro benefício da dicotomização: ela pode ser usada para mitigar os efeitos de valores discrepantes significativos que distorcem os coeficientes, mas representam casos realistas que precisam ser tratados. Se os valores discrepantes não diferem muito dos outros valores nos percentis mais próximos, mas distorcem os parâmetros o suficiente para afetar a precisão marginal, pode ser benéfico agrupá-los com valores que exibam efeitos semelhantes.

Às vezes, uma distribuição se presta naturalmente a um conjunto de classes; nesse caso, a dicotomização realmente oferece um grau de precisão mais alto do que uma função contínua.

Além disso, como mencionado anteriormente, dependendo do público, a facilidade de apresentação pode superar as perdas de precisão. Para usar a pontuação de crédito novamente como exemplo, na prática, o alto grau de regulamentação é um argumento prático para discretizar às vezes. Embora o maior grau de precisão possa ajudar o credor a reduzir as perdas, os profissionais também devem considerar que os modelos precisam ser facilmente compreendidos pelos reguladores (que podem solicitar milhares de páginas de documentação do modelo) e pelos consumidores, aos quais, se for negado crédito, têm o direito legal de explicação do porquê.

Tudo depende do problema em questão e dos dados, mas certamente há casos em que a dicotomização tem seus méritos.

cjthompson
fonte
Dicotomização é colocar em duas posições - você quer dizer discretização?
Scortchi - Reinstate Monica
2
Nos dois primeiros exemplos, a discretização está tentando entrar na festa, agarrando-se a um convidado de boa-fé. Não se deixe enganar. (1) Se você deseja modelar não ter uma linha de crédito rotativa aberta como uma classe distinta, use uma variável dummy para indicar essa condição e atribua qualquer valor constante para o saldo médio de crédito rotativo. (2) Se você deseja tratar determinados valores extremos de preditores de forma idêntica, como "grande" ou "pequeno", trunque-os; não há necessidade de mexer com o restante dos valores. O terceiro caso é incontestado - fique à vontade para adicionar exemplos.
Scortchi - Reinstate Monica
3

Se uma variável tiver um efeito em um limite específico, crie uma nova variável ao classificar, é uma boa coisa a fazer. Eu sempre mantenho as duas variáveis, a original e a binning, e verifico qual variável é um melhor preditor.

Nguyen
fonte
3

Sou fã do conselho de Frank Harrell de que os analistas devem resistir à discretização prematura de dados contínuos. E tenho várias respostas no CV e no SO que demonstram como visualizar as interações entre variáveis ​​contínuas, pois acho que essa é uma linha de investigação ainda mais valiosa. No entanto, também tenho experiência no mundo real no mundo médico das barreiras à adesão a esse conselho. Muitas vezes, existem divisões atraentes que os clínicos e não clínicos esperam por "divisões". O "limite superior do normal" convencional é um desses pontos de divisão "naturais". Um é essencialmente examinar primeiro a base estatística de uma relação e depois comunicar a substância das descobertas em termos que seu público espera e pode compreender facilmente. Apesar da minha "alergia" para barplots, são extremamente comuns no discurso científico e médico. Portanto, é provável que o público tenha um padrão cognitivo pronto para processá-los e será capaz de integrar os resultados em sua base de conhecimento.

Além disso, a exibição gráfica de interações modeladas entre formas não lineares de variáveis ​​preditivas requer apresentações de gráficos de contorno ou exibições de estrutura de arame que a maioria do público terá alguma dificuldade em digerir. Eu achei o público médico e o público em geral mais receptivo a apresentações com resultados discretizados e segmentados. Portanto, suponho que a conclusão é que a divisão é feita corretamente após a conclusão da análise estatística; e é feito na fase de apresentação.

DWin
fonte
1

Muitas vezes, a exclusão de variáveis ​​contínuas vem com uma sensação desconfortável de causar danos devido à perda de informações. No entanto, além de limitar a perda de informações, você pode obter informações e obter mais vantagens.

Se você usar binning e obter variáveis ​​categorizadas, poderá aplicar algoritmos de aprendizado que não são aplicáveis ​​a variáveis ​​contínuas. Seu conjunto de dados pode se encaixar melhor em um desses algoritmos, então aqui está seu primeiro benefício.

A idéia de estimar a perda devido ao binning é baseada no artigo "Aprendizagem do PAC com atributos irrelevantes". Suponha que o nosso conceito seja binário para que possamos dividir as amostras em positivos e negativos. Para cada par de amostras negativas e positivas, a diferença de conceito pode ser explicada por uma diferença em um dos recursos (ou não, não é explicável pelos recursos fornecidos). O conjunto das diferenças de recurso é o conjunto de explicações possíveis para a diferença de conceito, portanto, os dados a serem usados ​​para determinar o conceito. Se realizássemos binning e ainda obtivéssemos o mesmo conjunto de explicações para os pares, não perderíamos nenhuma informação necessária (com relação aos algoritmos de aprendizado que funcionam com essas comparações). Se nossa categorização for muito rigorosa, provavelmente teremos um conjunto menor de explicações possíveis, mas poderemos medir com precisão quanto e onde perdemos. Isso nos permitirá trocar o número de posições em relação ao conjunto de explicações.

Até agora, vimos que não podemos perder devido à categorização, mas se considerarmos a aplicação de uma etapa, gostaríamos de nos beneficiar. De fato, podemos nos beneficiar da categorização

Muitos algoritmos de aprendizado que serão solicitados a classificar uma amostra com valores não vistos no conjunto de trens considerarão o valor como "desconhecido". Portanto, obteremos uma caixa de "desconhecido" que inclui TODOS os valores não vistos durante o trem (ou mesmo não vistos o suficiente). Para esses algoritmos, a diferença entre pares de valores desconhecidos não será usada para melhorar a classificação. Compare seus pares após o binning com os pares com desconhecido e veja se o seu binning é útil e você realmente ganhou.

Você pode estimar quão comuns serão os valores desconhecidos, verificando a distribuição dos valores de cada recurso. Os recursos em que os valores que aparecem apenas algumas vezes são uma parte considerável de sua distribuição são bons candidatos ao binning. Observe que, em muitos cenários, você terá muitos recursos desconhecidos, aumentando a probabilidade de que uma amostra contenha valor desconhecido. Algoritmos que tratam todos ou muitos dos recursos são propensos a erros nessas situações.

A. Dhagat e L. Hellerstein, "APA aprendendo com atributos irrelevantes", em 'Proceedings of the IEEE Symp. na Fundação de Ciência da Computação ', 1994. http://citeseer.ist.psu.edu/dhagat94pac.html

DaL
fonte