Faz sentido tratar dados categóricos como contínuos?

57

Ao responder a essa pergunta sobre dados discretos e contínuos, afirmei com clareza que raramente faz sentido tratar os dados categóricos como contínuos.

Em face disso, isso parece óbvio, mas a intuição costuma ser um péssimo guia para estatísticas, ou pelo menos a minha. Então agora eu estou me perguntando: isso é verdade? Ou existem análises estabelecidas para as quais uma transformação de dados categóricos em algum continuum é realmente útil? Faria diferença se os dados fossem ordinais?

walkytalky
fonte
20
Essa pergunta e suas respostas nos lembram o quão grosseira e limitada essa divisão antiquada de variáveis ​​em razão de intervalo categórico-ordinal realmente é. Ele pode orientar o estatisticamente ingênuo, mas para o analista atencioso ou experiente, isso é um obstáculo, um obstáculo na maneira de expressar variáveis ​​de maneira apropriada para os dados e as decisões a serem tomadas com eles. Alguém trabalhando a partir deste último ponto de vista se moverá livremente entre representações de dados categóricas e "contínuas"; para eles, essa questão nem pode surgir! Em vez disso, devemos perguntar: como isso ajuda?
whuber
@whuber (+1) No mínimo, parece difícil otimizar a confiabilidade da medição e a precisão do diagnóstico ao mesmo tempo.
chl

Respostas:

34

Assumirei que uma variável "categórica" ​​na verdade representa uma variável ordinal; caso contrário, não faz muito sentido tratá-lo como contínuo, a menos que seja uma variável binária (codificada 0/1) como apontado por @Rob. Então, eu diria que o problema não é tanto assim como tratamos a variável, embora muitos modelos de análise de dados categóricos tenham sido desenvolvidos até agora - veja, por exemplo, A análise de dados categóricos ordenados: uma visão geral e uma pesquisa recente desenvolvimentos de Liu e Agresti--, do que a escala de medição subjacente que assumimos. Minha resposta se concentrará nesse segundo ponto, embora eu primeiro discuta brevemente a atribuição de pontuações numéricas a categorias ou níveis variáveis.

Usando uma recodificação numérica simples de uma variável ordinal, você assume que a variável possui propriedades de intervalo (no sentido da classificação dada por Stevens, 1946). Do ponto de vista da teoria da medida (em psicologia), isso pode ser uma suposição muito forte, mas para o estudo básico (ou seja, onde um único item é usado para expressar a opinião de alguém sobre uma atividade diária com palavras claras), qualquer pontuação monótona deve fornecer resultados comparáveis . Cochran (1954) já apontou que

qualquer conjunto de pontuações fornece um teste válido , desde que elas sejam construídas sem consultar os resultados do experimento. Se o conjunto de pontuações for ruim, pois distorce mal uma escala numérica que realmente está subjacente à classificação ordenada, o teste não será sensível. As pontuações devem, portanto, incorporar a melhor percepção disponível sobre a maneira como a classificação foi construída e usada. (p. 436)

(Muito obrigado a @whuber por me lembrar disso em um de seus comentários, o que me levou a reler o livro de Agresti, do qual essa citação vem.)

Na verdade, vários testes tratam implicitamente variáveis ​​como escalas de intervalo: por exemplo, a estatística para testar uma tendência linear (como uma alternativa à independência simples) é baseada em uma abordagem correlacional ( , Agresti, 2002, p. 87).M 2 = ( n - 1 ) r 2M2M2=(n1)r2

Bem, você também pode decidir recodificar sua variável em um intervalo irregular ou agregar alguns de seus níveis, mas, neste caso, um forte desequilíbrio entre categorias recodificadas pode distorcer os testes estatísticos, por exemplo, o teste de tendência mencionado acima. Uma boa alternativa para atribuir distância entre categorias já foi proposta pelo @Jeromy, ou seja, escala ideal.

Agora, vamos discutir o segundo ponto que fiz, o do modelo de medição subjacente. Estou sempre hesitando em adicionar a tag "psicometria" quando vejo esse tipo de pergunta, porque a construção e a análise de escalas de medição estão sob a Teoria Psicométrica (Nunnally e Bernstein, 1994, para uma visão geral clara). Não vou me debruçar sobre todos os modelos que estão de fato sob a Teoria da Resposta ao Item e, por gentileza, remeto o leitor interessado para o tutorial de I. Partchev, Um guia visual para a teoria da resposta ao item, para uma introdução suave ao IRT e às referências (5-8) listadas no final para possíveis taxonomias do IRT. Muito brevemente, a idéia é que, em vez de atribuir distâncias arbitrárias entre categorias variáveis, você assume uma escala latente e estima sua localização nesse continuum, juntamente com a capacidade ou a responsabilidade dos indivíduos. Um exemplo simples vale muita notação matemática, portanto, vamos considerar o seguinte item (proveniente do questionário de qualidade de vida relacionado à saúde do EORTC QLQ-C30 ):

Você se preocupou?

que é codificado em uma escala de quatro pontos, variando de "Nada" a "Muito". As pontuações brutas são calculadas atribuindo-se uma pontuação de 1 a 4. Pontuações nos itens pertencentes à mesma escala podem então ser somadas para gerar a chamada pontuação da escala, que indica a classificação de alguém no construto subjacente (aqui, um componente de saúde mental ) Essas pontuações na escala resumida são muito práticas por causa da facilidade de pontuação (para o médico ou enfermeiro), mas não passam de uma escala discreta (ordenada).

Também podemos considerar que a probabilidade de endossar uma determinada categoria de resposta obedece a algum tipo de modelo logístico, conforme descrito no tutorial de I. Partchev, mencionado acima. Basicamente, a ideia é a de um tipo de modelo de limiar (que leva a uma formulação equivalente em termos dos modelos de chances proporcionais ou cumulativas) e modelamos as chances de estar em uma categoria de resposta em vez da anterior ou as chances de pontuação acima de um determinada categoria, condicional à localização dos sujeitos na característica latente. Além disso, podemos impor que as categorias de resposta sejam igualmente espaçadas na escala latente (este é o modelo da Escala de Classificação) - que é o modo como fazemos atribuindo pontuações numéricas regularmente espaçadas - ou não (este é o modelo de Crédito Parcial) .

Claramente, não estamos adicionando muito à Teoria Clássica dos Testes, onde as variáveis ​​ordinais são tratadas como numéricas. No entanto, introduzimos um modelo probabilístico, em que assumimos uma escala contínua (com propriedades de intervalo) e onde erros específicos de medição podem ser contabilizados, e podemos inserir esses escores fatoriais em qualquer modelo de regressão.

Referências

  1. SS Stevens. Na teoria das escalas de medida. Science , 103 : 677-680, 1946.
  2. WG Cochran. Alguns métodos para fortalecer os comuns . Biometrics , 10 : 417-451, 1954.χ2
  3. J Nunnally e eu Bernstein. Teoria psicométrica . McGraw-Hill, 1994
  4. Alan Agresti. Análise de dados categóricos . Wiley, 1990.
  5. CR Rao e S Sinharay, editores. Handbook of Statistics, vol. 26: Psicometria . Elsevier Science BV, Holanda, 2007.
  6. A Boomsma, MAJ van Duijn e TAB Snijders. Ensaios sobre a Teoria da Resposta ao Item . Springer, 2001.
  7. D. Thissen e L. Steinberg. Uma taxonomia de modelos de resposta a itens. Psychometrika , 51 (4) : 567-577, 1986.
  8. P. Mair e R. Hatzinger. Extensão Rasch Modeling: O Pacote de ERM para a aplicação de modelos da TRI em R . Journal of Statistical Software , 20 (9) , 2007.
chl
fonte
19

Se houver apenas duas categorias, transformá-las em (0,1) faz sentido. De fato, isso geralmente é feito quando a variável dummy resultante é usada em modelos de regressão.

Se houver mais de duas categorias, acho que só faz sentido se os dados forem ordinais e somente em circunstâncias muito específicas. Por exemplo, se estou fazendo regressão e ajustando uma função não-linear não paramétrica à variável ordinal-cum-numérica, acho que está bem. Mas se eu usar regressão linear, estou fazendo suposições muito fortes sobre a diferença relativa entre valores consecutivos da variável ordinal, e geralmente reluto em fazer isso.

Rob Hyndman
fonte
11
"[Então] estou fazendo suposições muito fortes sobre a diferença relativa entre valores consecutivos da variável ordinal". Eu acho que esse é o ponto chave, realmente. ou seja, com que intensidade você pode argumentar que a diferença entre os grupos 1 e 2 é comparável à entre 2 e 3?
Freya Harrison
Eu acho que você deve supor sobre como a variável contínua deve ser distribuída e, em seguida, tentar ajustar esse "psudo-histograma" de cada frequência de variável categórica (quero dizer, encontrar larguras de lixeira que a transformarão em um histograma ajustado). Ainda assim, não sou especialista neste campo, é uma idéia rápida e suja.
A reformulação de categorias binárias como {0,1} faz sentido, mas transformar isso em um intervalo [0,1] contínuo parece um salto. No plano mais amplo, estou totalmente com sua relutância em ponderar ordinais igualmente, a menos que haja argumentos poderosos do modelo.
23810 walkytalky
18

É prática comum tratar variáveis ​​categóricas ordenadas com muitas categorias como contínuas. Exemplos disso:

  • Número de itens corretos em um teste de 100 itens
  • Uma escala psicológica somada (por exemplo, a média de 10 itens cada uma em uma escala de cinco pontos)

E por "tratar como contínuo", quero dizer incluir a variável em um modelo que assume uma variável aleatória contínua (por exemplo, como variável dependente em uma regressão linear). Suponho que a questão é quantos pontos de escala são necessários para que essa seja uma suposição simplificadora razoável.

Alguns outros pensamentos:

  • As correlações policóricas tentam modelar o relacionamento entre duas variáveis ​​ordinais em termos de variáveis ​​contínuas latentes assumidas.
  • O dimensionamento ideal permite desenvolver modelos nos quais o dimensionamento de uma variável categórica é desenvolvido de maneira orientada por dados, respeitando as restrições de escala que você impõe (por exemplo, ordinalidade). Para uma boa introdução, ver De Leeuw e Mair (2009)

Referências

  • De Leeuw, J., & Mair, P. (2009). Métodos Gifi para dimensionamento ideal em R: O pacote homals. Journal of Statistical Software, a ser publicado, 1-30. PDF
Jeromy Anglim
fonte
7

Um exemplo muito simples, muitas vezes esquecido, que deveria estar dentro da experiência de muitos leitores, diz respeito às notas ou notas dadas ao trabalho acadêmico. Frequentemente, as notas para atribuições individuais são, em essência, medidas ordinais baseadas em julgamento, mesmo quando, por convenção, são dadas como (digamos) porcentagens ou notas em uma escala com no máximo 5 (possivelmente também com pontos decimais). Ou seja, um professor pode ler um ensaio ou dissertação ou tese ou artigo e decidir que merece 42%, ou 4, ou o que for. Mesmo quando as marcas são baseadas em um esquema de avaliação detalhado, a escala está na raiz a alguma distância de uma escala de medição de intervalo ou razão.

Porém, muitas instituições consideram que, se você tiver o suficiente dessas notas ou notas, é perfeitamente razoável calculá-las (média de notas etc.) e até analisá-las com mais detalhes. Então, em algum momento, as medidas ordinais se transformam em uma escala de resumo que é tratada como se fosse contínua.

Os especialistas em ironia observam que os cursos de estatística em muitos departamentos ou escolas geralmente ensinam que isso é, na melhor das hipóteses, duvidoso e, na pior das hipóteses, errado, enquanto é implementado como um procedimento em toda a universidade.

Nick Cox
fonte
5

Em uma análise de classificação por frequência, como em um gráfico de Pareto e valores associados (por exemplo, quantas categorias compõem os 80% principais de falhas do produto)

AdamV
fonte
5
Ponto importante e pode ser estendido: muitos modelos de dados ordinais dependem da ideia de que não são os dados ordinais, mas suas probabilidades cumulativas que podem ser modeladas.
Nick Cox
4

Vou argumentar que tratar uma variável verdadeiramente categórica e não ordinal como contínua às vezes pode fazer sentido.

Se você estiver construindo árvores de decisão com base em grandes conjuntos de dados, pode ser caro em termos de poder de processamento e memória converter variáveis ​​categóricas em variáveis ​​dummy. Além disso, alguns modelos (por exemplo, randomForestem R) não podem lidar com variáveis ​​categóricas com muitos níveis.

Nesses casos, um modelo baseado em árvore deve ser capaz de identificar categorias extremamente importantes, mesmo que sejam codificadas como uma variável contínua. Um exemplo artificial:

set.seed(42)
library(caret)
n <- 10000
a <- sample(1:100, n, replace=TRUE)
b <- sample(1:100, n, replace=TRUE)
e <- runif(n)
y <- 2*a + 1000*(b==7) + 500*(b==42) + 1000*e
dat1 <- data.frame(y, a, b)
dat2 <- data.frame(y, a, b=factor(b))

y é uma variável contínua, a é uma variável contínua eb é uma variável categórica. No entanto, em dat1b é tratado como contínuo.

Ajustando uma árvore de decisão a esses 2 conjuntos de dados, descobrimos que dat1é um pouco pior que dat2:

model1 <- train(y~., dat1, method='rpart')
model2 <- train(y~., dat2, method='rpart')
> min(model1$results$RMSE)
[1] 302.0428
> min(model2$results$RMSE)
[1] 294.1411

Se você olhar para os 2 modelos, verá que eles são muito semelhantes, mas o modelo1 perde a importância de b == 42:

> model1$finalModel
n= 10000 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 10000 988408000  614.0377  
   2) a< 42.5 4206 407731400  553.5374 *
   3) a>=42.5 5794 554105700  657.9563  
     6) b>=7.5 5376 468539000  649.2613 *
     7) b< 7.5 418  79932820  769.7852  
      14) b< 6.5 365  29980450  644.6897 *
      15) b>=6.5 53   4904253 1631.2920 *
> model2$finalModel
n= 10000 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 10000 988408000  614.0377  
   2) b7< 0.5 9906 889387900  604.7904  
     4) a< 42.5 4165 364209500  543.8927 *
     5) a>=42.5 5741 498526600  648.9707  
      10) b42< 0.5 5679 478456300  643.7210 *
      11) b42>=0.5 62   5578230 1129.8230 *
   3) b7>=0.5 94   8903490 1588.5500 *

No entanto, o model1 é executado em cerca de 1/10 do tempo do model2:

> model1$times$everything
   user  system elapsed 
  4.881   0.169   5.058 
> model2$times$everything
   user  system elapsed 
 45.060   3.016  48.066 

Obviamente, você pode ajustar os parâmetros do problema para encontrar situações em que dat2supera de longe dat1ou dat1supera ligeiramente dat2.

Em geral, não estou defendendo o tratamento contínuo de variáveis ​​categóricas, mas encontrei situações em que isso reduzia bastante o tempo necessário para ajustar meus modelos, sem diminuir sua precisão preditiva.

Zach
fonte
3

Um resumo muito bom deste tópico pode ser encontrado aqui:

mijkerhemtulla.socsci.uva.nl PDF

"Quando as variáveis ​​categóricas podem ser tratadas como contínuas? Uma comparação de métodos de estimativa SEM contínuos e categóricos robustos sob condições sub-ótimas."

Mijke Rhemtulla, Patricia É. Brosseau-Liard e Victoria Savalei

Eles investigam os métodos de aproximadamente 60 páginas para fazer isso e fornecem informações sobre quando é útil fazer, qual abordagem adotar e quais são os pontos fortes e fracos de cada abordagem para se adequar à sua situação específica. Eles não cobrem todos eles (como estou aprendendo, parece haver uma quantidade ilimitada), mas os que eles cobrem cobrem bem.

Taal
fonte
2

Há outro caso em que faz sentido: quando os dados são amostrados a partir de dados contínuos (por exemplo, através de um conversor de analógico para digital). Para instrumentos mais antigos, os ADCs costumavam ter 10 bits, fornecendo dados ordinais da categoria nominal de 1024, mas na maioria dos casos podem ser tratados como reais (embora existam alguns artefatos para valores próximos à extremidade inferior da escala). Hoje, os ADCs costumam ter 16 ou 24 bits. No momento em que você fala 65536 ou 16777216 "categorias", você realmente não tem problemas em tratar os dados como contínuos.

Kieran O'Neill
fonte
Concordo plenamente com o seu resultado final, mas sem dúvida esses dados nunca foram ordinais para começar, apenas discretos. Os maus tratamentos da razão intervalo-ordinal nominal são os culpados aqui por muitas vezes não apontarem que ordinal implica discreto, mas não vice-versa. Uma contagem é ordinal, mas também é intervalo e proporção.
Nick Cox
@ Nick Ordinal implica discreto? Não necessariamente. Medidas contínuas podem ser ordinais. Por exemplo, variáveis ​​fisiológicas, como GSP ou freqüência cardíaca, são contínuas, mas como medidas de variáveis ​​psicológicas, como ansiedade ou excitação, são apenas ordinais. A noção de ordinal versus intervalo realmente se refere à linearidade da função que relaciona a medida com o que se pretende medir.
precisa
Essa é uma observação interessante, mas uma vez que você entra nesse território, não vejo como classificar a freqüência cardíaca sem evidência independente do que realmente é a ansiedade e, em última análise, a maioria das variáveis ​​consideradas como proxies não são classificáveis. Você se recusaria a usar métodos para dados de intervalo ou razão sempre que mudar para a escala de medição como ordinal? Eu não acho que os dados se comportam de maneira diferente por causa do que você pretende fazer com eles; esse é o ponto principal da questão para mim.
Nick Cox
11
@ Nick A questão é se a função que relaciona o valor medido com o valor "verdadeiro" é suficientemente próxima do linear que o tratamento como tal não levará a conclusões substantivas erradas ou se deve ser tratado apenas como monotônico. Geralmente, há pouco ou nenhum dado físico sobre o qual basear a decisão; quase sempre será um julgamento, sobre o qual pessoas inteligentes informadas podem ter que concordar em discordar.
precisa saber é o seguinte
11
Penso que a ênfase usual nas discussões de escalas de medição em estatística está nas propriedades matemáticas das variáveis ​​e quais são as operações matemáticas legítimas de cada uma. Isso é bastante contencioso. Preocupação científica em saber se algo mede o que é suposto eu prontamente concordo em ser de importância vital, mas considero uma área de debate bastante diferente.
Nick Cox