Qual é o efeito das variáveis ​​dicotomizantes?

14
  • Ao dicotomizar variáveis, quais informações são perdidas no processo?
  • Como uma dicotomização ajuda nas análises?
Mimi
fonte
Gelman e Park têm um artigo que compara a prática de criar três categorias a partir de uma variável contínua, em oposição a duas. Geralmente, é melhor deixar a variável contínua pelos motivos explicados por outros abaixo.
Michael Bishop

Respostas:

10

Que informação é perdida: Depende da variável. Geralmente, ao dicotomizar, você está afirmando que há uma linha reta de efeito entre uma variável e outra. Por exemplo, considere uma medida contínua de exposição a um poluente em um estudo sobre câncer. Se você dicotomizar para "Alto" e "Baixo", afirma que esses são os únicos dois valores importantes. Existe um risco de câncer alto, e há um baixo. Mas e se o risco aumentar constantemente por um tempo, depois se achatar e aumentar novamente antes de finalmente atingir valores altos? Tudo isso está perdido.

O que você ganha: é mais fácil. Variáveis ​​dicotômicas geralmente são muito mais fáceis de lidar estatisticamente. Há razões para fazê-lo - se uma variável contínua cai em dois agrupamentos claros de qualquer maneira , mas eu tendem a evitar dicotomizando a menos que seu uma forma natural da variável em primeiro lugar. Geralmente, também é útil se o seu campo estiver dicotomizando as coisas de qualquer maneira para ter uma forma dicotomizada de uma variável. Por exemplo, muitos consideram que a contagem de células CD4 inferior a 400 é um limiar crítico para o HIV. Como tal, muitas vezes eu tenho uma variável 0/1 para Acima / Abaixo de 400, embora retenha a variável de contagem contínua de CD4 também. Isso ajuda a acompanhar seu estudo com outras pessoas.

Discordo um pouco de Peter. Embora dividir uma variável contínua em categorias geralmente seja muito mais sensível do que uma dicotomização grosseira, sou contra a categorização quantil. Tais categorizações são muito difíceis de dar interpretações significativas. Penso que o seu primeiro passo deve ser verificar se existe uma categorização biologicamente ou clinicamente bem suportada que se possa usar, e somente quando essas opções estiverem esgotadas você deve usar quantis.

Fomite
fonte
Olá @epigrad. Eu acho que a regressão quantil tem uma interpretação bastante fácil; é muito semelhante à regressão OLS regular, exceto para substituir "percentil XXX" por "média".
Peter Flom - Restabelece Monica
@ PeterFlom Desculpe, eu deveria ter sido mais claro. Acho difícil compor como uma interpretação clinica / biologicamente relevante, quando comparada às categorias construídas a partir de evidências clínicas / biológicas. Isso é reconhecidamente um viés específico de campo da minha parte.
Fomite 5/10/11
Ah, ok, @epigrad, isso faz sentido. E editarei minha resposta para incluir este caso.
Peter Flom - Restabelece Monica
1
Parece que EpiGrad e @PeterFlom interpretam "regressão quantílica" de maneira diferente. O EpiGrad fala sobre dividir a variável X em grupos definidos por quantis, enquanto Peter Flom fala sobre modelagem, digamos, o 90º quantil da resposta em vez de sua média.
Aniko
@ Aniko Isso também pode ser possível. Eu assumi (provavelmente incorretamente) que Peter quis dizer categorizar os dados em quantis e usá-los em um modelo de regressão. Uma tendência comum (e cansativa) no meu campo. Isso pode não ser o caso.
Fomite 6/10/11
9

A dicotimização adiciona pensamento mágico à análise de dados. Isso raramente é uma boa ideia.

Aqui está um artigo de Royston, Altman e Sauerbrei sobre algumas razões pelas quais é uma má ideia.

Meus próprios pensamentos: se você dicotomizar uma variável dependente, digamos, peso ao nascer com 2,5 kg (isso é feito o tempo todo), você estará tratando bebês nascidos com 2,49 kg, assim como aqueles nascidos com 1,5 kg e bebês nascidos com 2,51 kg, assim como aqueles que são 3,5 kg. Isto não faz sentido.

Uma alternativa melhor é frequentemente a regressão quantílica. Eu escrevi sobre isso para o NESUG recentemente. Esse papel está aqui

Uma exceção ao acima é quando as categorias são substancialmente motivadas; por exemplo, se você estiver trabalhando com comportamento de dirigir, será sensato categorizar com base na idade legal para dirigir.

Peter Flom - Restabelece Monica
fonte
5
Lindamente disse Peter. Não consigo imaginar uma situação em que a dicotomização em análise seja uma boa ideia.
precisa
5

Gostei e apoio as respostas de @ Epigrad e @ Peter. Eu só queria acrescentar que a variável de intervalo de bin em uma binária torna a variável métrica (potencialmente) apenas uma ordinal. Com a variável binária, é inadequado calcular média ou variância (apesar de algumas pessoas o fazerem) e, como já observei em outros lugares , algumas análises multivariadas se tornam teórica ou logicamente inaplicáveis. Por exemplo, acho que não é correto usar cluster hierárquico de Centroid / Ward ou análise fatorial com variáveis ​​binárias.

Clientes de investigação geralmente nos forçam a dicotomizar variáveis ​​na saída, porque pensar em termos de poucas classes em vez de uma característica contínua é mais simples, a informação parece menos nebulosa e (falsamente) mais volumosa.

Existem, no entanto, casos em que a dicotomização pode ser justificada. Por exemplo, onde há forte bimodalidade ou quando a análise (por exemplo, MAMBAC ou outra) mostra a presença de 2 classes latentes.

ttnphns
fonte
Estou tendo dificuldade para entender seu argumento. E se um cliente quer que pratiquemos más práticas estatísticas, devemos pensar duas vezes. Nota: tricotomia não é uma palavra. Dicotomização = dicho (dois) + tomoso (corte), portanto seria tritomizado / tritomizado se usado.
quer
A passagem no cliente era um lamento, não argumento. Quanto ao grego, você está certo; Eu removi a palavra.
precisa saber é o seguinte
1
Obrigado. Tento, tanto quanto humanamente possível, traduzir lamentos estatísticos em ações corretivas, apesar de um processo de educação intensiva com o cliente.
precisa