Ao responder a essa pergunta sobre dados discretos e contínuos, afirmei com clareza que raramente faz sentido tratar os dados categóricos como contínuos.
Em face disso, isso parece óbvio, mas a intuição costuma ser um péssimo guia para estatísticas, ou pelo menos a minha. Então agora eu estou me perguntando: isso é verdade? Ou existem análises estabelecidas para as quais uma transformação de dados categóricos em algum continuum é realmente útil? Faria diferença se os dados fossem ordinais?
Respostas:
Assumirei que uma variável "categórica" na verdade representa uma variável ordinal; caso contrário, não faz muito sentido tratá-lo como contínuo, a menos que seja uma variável binária (codificada 0/1) como apontado por @Rob. Então, eu diria que o problema não é tanto assim como tratamos a variável, embora muitos modelos de análise de dados categóricos tenham sido desenvolvidos até agora - veja, por exemplo, A análise de dados categóricos ordenados: uma visão geral e uma pesquisa recente desenvolvimentos de Liu e Agresti--, do que a escala de medição subjacente que assumimos. Minha resposta se concentrará nesse segundo ponto, embora eu primeiro discuta brevemente a atribuição de pontuações numéricas a categorias ou níveis variáveis.
Usando uma recodificação numérica simples de uma variável ordinal, você assume que a variável possui propriedades de intervalo (no sentido da classificação dada por Stevens, 1946). Do ponto de vista da teoria da medida (em psicologia), isso pode ser uma suposição muito forte, mas para o estudo básico (ou seja, onde um único item é usado para expressar a opinião de alguém sobre uma atividade diária com palavras claras), qualquer pontuação monótona deve fornecer resultados comparáveis . Cochran (1954) já apontou que
(Muito obrigado a @whuber por me lembrar disso em um de seus comentários, o que me levou a reler o livro de Agresti, do qual essa citação vem.)
Na verdade, vários testes tratam implicitamente variáveis como escalas de intervalo: por exemplo, a estatística para testar uma tendência linear (como uma alternativa à independência simples) é baseada em uma abordagem correlacional ( , Agresti, 2002, p. 87).M 2 = ( n - 1 ) r 2M2 M2=(n−1)r2
Bem, você também pode decidir recodificar sua variável em um intervalo irregular ou agregar alguns de seus níveis, mas, neste caso, um forte desequilíbrio entre categorias recodificadas pode distorcer os testes estatísticos, por exemplo, o teste de tendência mencionado acima. Uma boa alternativa para atribuir distância entre categorias já foi proposta pelo @Jeromy, ou seja, escala ideal.
Agora, vamos discutir o segundo ponto que fiz, o do modelo de medição subjacente. Estou sempre hesitando em adicionar a tag "psicometria" quando vejo esse tipo de pergunta, porque a construção e a análise de escalas de medição estão sob a Teoria Psicométrica (Nunnally e Bernstein, 1994, para uma visão geral clara). Não vou me debruçar sobre todos os modelos que estão de fato sob a Teoria da Resposta ao Item e, por gentileza, remeto o leitor interessado para o tutorial de I. Partchev, Um guia visual para a teoria da resposta ao item, para uma introdução suave ao IRT e às referências (5-8) listadas no final para possíveis taxonomias do IRT. Muito brevemente, a idéia é que, em vez de atribuir distâncias arbitrárias entre categorias variáveis, você assume uma escala latente e estima sua localização nesse continuum, juntamente com a capacidade ou a responsabilidade dos indivíduos. Um exemplo simples vale muita notação matemática, portanto, vamos considerar o seguinte item (proveniente do questionário de qualidade de vida relacionado à saúde do EORTC QLQ-C30 ):
que é codificado em uma escala de quatro pontos, variando de "Nada" a "Muito". As pontuações brutas são calculadas atribuindo-se uma pontuação de 1 a 4. Pontuações nos itens pertencentes à mesma escala podem então ser somadas para gerar a chamada pontuação da escala, que indica a classificação de alguém no construto subjacente (aqui, um componente de saúde mental ) Essas pontuações na escala resumida são muito práticas por causa da facilidade de pontuação (para o médico ou enfermeiro), mas não passam de uma escala discreta (ordenada).
Também podemos considerar que a probabilidade de endossar uma determinada categoria de resposta obedece a algum tipo de modelo logístico, conforme descrito no tutorial de I. Partchev, mencionado acima. Basicamente, a ideia é a de um tipo de modelo de limiar (que leva a uma formulação equivalente em termos dos modelos de chances proporcionais ou cumulativas) e modelamos as chances de estar em uma categoria de resposta em vez da anterior ou as chances de pontuação acima de um determinada categoria, condicional à localização dos sujeitos na característica latente. Além disso, podemos impor que as categorias de resposta sejam igualmente espaçadas na escala latente (este é o modelo da Escala de Classificação) - que é o modo como fazemos atribuindo pontuações numéricas regularmente espaçadas - ou não (este é o modelo de Crédito Parcial) .
Claramente, não estamos adicionando muito à Teoria Clássica dos Testes, onde as variáveis ordinais são tratadas como numéricas. No entanto, introduzimos um modelo probabilístico, em que assumimos uma escala contínua (com propriedades de intervalo) e onde erros específicos de medição podem ser contabilizados, e podemos inserir esses escores fatoriais em qualquer modelo de regressão.
Referências
fonte
Se houver apenas duas categorias, transformá-las em (0,1) faz sentido. De fato, isso geralmente é feito quando a variável dummy resultante é usada em modelos de regressão.
Se houver mais de duas categorias, acho que só faz sentido se os dados forem ordinais e somente em circunstâncias muito específicas. Por exemplo, se estou fazendo regressão e ajustando uma função não-linear não paramétrica à variável ordinal-cum-numérica, acho que está bem. Mas se eu usar regressão linear, estou fazendo suposições muito fortes sobre a diferença relativa entre valores consecutivos da variável ordinal, e geralmente reluto em fazer isso.
fonte
É prática comum tratar variáveis categóricas ordenadas com muitas categorias como contínuas. Exemplos disso:
E por "tratar como contínuo", quero dizer incluir a variável em um modelo que assume uma variável aleatória contínua (por exemplo, como variável dependente em uma regressão linear). Suponho que a questão é quantos pontos de escala são necessários para que essa seja uma suposição simplificadora razoável.
Alguns outros pensamentos:
Referências
fonte
Um exemplo muito simples, muitas vezes esquecido, que deveria estar dentro da experiência de muitos leitores, diz respeito às notas ou notas dadas ao trabalho acadêmico. Frequentemente, as notas para atribuições individuais são, em essência, medidas ordinais baseadas em julgamento, mesmo quando, por convenção, são dadas como (digamos) porcentagens ou notas em uma escala com no máximo 5 (possivelmente também com pontos decimais). Ou seja, um professor pode ler um ensaio ou dissertação ou tese ou artigo e decidir que merece 42%, ou 4, ou o que for. Mesmo quando as marcas são baseadas em um esquema de avaliação detalhado, a escala está na raiz a alguma distância de uma escala de medição de intervalo ou razão.
Porém, muitas instituições consideram que, se você tiver o suficiente dessas notas ou notas, é perfeitamente razoável calculá-las (média de notas etc.) e até analisá-las com mais detalhes. Então, em algum momento, as medidas ordinais se transformam em uma escala de resumo que é tratada como se fosse contínua.
Os especialistas em ironia observam que os cursos de estatística em muitos departamentos ou escolas geralmente ensinam que isso é, na melhor das hipóteses, duvidoso e, na pior das hipóteses, errado, enquanto é implementado como um procedimento em toda a universidade.
fonte
Em uma análise de classificação por frequência, como em um gráfico de Pareto e valores associados (por exemplo, quantas categorias compõem os 80% principais de falhas do produto)
fonte
Vou argumentar que tratar uma variável verdadeiramente categórica e não ordinal como contínua às vezes pode fazer sentido.
Se você estiver construindo árvores de decisão com base em grandes conjuntos de dados, pode ser caro em termos de poder de processamento e memória converter variáveis categóricas em variáveis dummy. Além disso, alguns modelos (por exemplo,
randomForest
em R) não podem lidar com variáveis categóricas com muitos níveis.Nesses casos, um modelo baseado em árvore deve ser capaz de identificar categorias extremamente importantes, mesmo que sejam codificadas como uma variável contínua. Um exemplo artificial:
y é uma variável contínua, a é uma variável contínua eb é uma variável categórica. No entanto, em
dat1
b é tratado como contínuo.Ajustando uma árvore de decisão a esses 2 conjuntos de dados, descobrimos que
dat1
é um pouco pior quedat2
:Se você olhar para os 2 modelos, verá que eles são muito semelhantes, mas o modelo1 perde a importância de b == 42:
No entanto, o model1 é executado em cerca de 1/10 do tempo do model2:
Obviamente, você pode ajustar os parâmetros do problema para encontrar situações em que
dat2
supera de longedat1
oudat1
supera ligeiramentedat2
.Em geral, não estou defendendo o tratamento contínuo de variáveis categóricas, mas encontrei situações em que isso reduzia bastante o tempo necessário para ajustar meus modelos, sem diminuir sua precisão preditiva.
fonte
Um resumo muito bom deste tópico pode ser encontrado aqui:
mijkerhemtulla.socsci.uva.nl PDF
"Quando as variáveis categóricas podem ser tratadas como contínuas? Uma comparação de métodos de estimativa SEM contínuos e categóricos robustos sob condições sub-ótimas."
Mijke Rhemtulla, Patricia É. Brosseau-Liard e Victoria Savalei
Eles investigam os métodos de aproximadamente 60 páginas para fazer isso e fornecem informações sobre quando é útil fazer, qual abordagem adotar e quais são os pontos fortes e fracos de cada abordagem para se adequar à sua situação específica. Eles não cobrem todos eles (como estou aprendendo, parece haver uma quantidade ilimitada), mas os que eles cobrem cobrem bem.
fonte
Há outro caso em que faz sentido: quando os dados são amostrados a partir de dados contínuos (por exemplo, através de um conversor de analógico para digital). Para instrumentos mais antigos, os ADCs costumavam ter 10 bits, fornecendo dados ordinais da categoria nominal de 1024, mas na maioria dos casos podem ser tratados como reais (embora existam alguns artefatos para valores próximos à extremidade inferior da escala). Hoje, os ADCs costumam ter 16 ou 24 bits. No momento em que você fala 65536 ou 16777216 "categorias", você realmente não tem problemas em tratar os dados como contínuos.
fonte