Podemos usar variável independente categórica na análise discriminante?

Respostas:

14

A análise discriminante assume uma distribuição normal multivariada, porque o que geralmente consideramos preditores é realmente uma variável dependente multivariada, e a variável de agrupamento é considerada preditora. Isso significa que variáveis ​​categóricas que devem ser tratadas como preditores no sentido que você deseja não são bem tratadas. Essa é uma das razões pelas quais muitos, inclusive eu, consideramos a análise discriminante tornada obsoleta pela regressão logística. A regressão logística não faz nenhuma suposição distributiva de qualquer tipo, no lado esquerdo ou no lado direito do modelo. A regressão logística é um modelo de probabilidade direta e não exige que se use a regra de Bayes para converter resultados em probabilidades, assim como a análise discriminante.

Frank Harrell
fonte
Obrigado, Sr. Frank Harrell, pela sua resposta. Na verdade, eu quero comparar os resultados da análise discriminatória e da regressão logística (modelo logit) usando o mesmo conjunto de variáveis. Então, para esse propósito, se eu tiver que usar as variáveis ​​categóricas na análise discriminante como variável independente, então existe alguma maneira?
kuwoli
6

A resposta curta é mais do que sim.

Uma nota preliminar. É difícil dizer se as variáveis ​​que produzem funções discriminantes por si mesmas devem ser chamadas de "independentes" ou "dependentes". O LDA é basicamente um caso específico de análise de correlação canônica e, portanto, é ambidirecional. Pode ser visto como MANOVA (com a variável de classe como fator independente) ou, quando a classe é dicotômica, como uma regressão linear da classe como variável dependente. Portanto, não é muito legal sempre opor-se à LDA com regressões unidirecionais, como a logística.

O LDA assume que as variáveis ​​(aquelas que você chamou de "independentes") vêm da distribuição normal multivariada, portanto - todas elas contínuas. Essa suposição é importante para (1) o estágio de classificação da LDA e (2) a significância do teste dos discriminantes produzidos no estágio de extração. A extração dos próprios discriminantes não precisa da suposição.

No entanto, o LDA é bastante robusto à violação da suposição, que às vezes é vista como uma garantia para fazê-lo em dados binários . De fato, algumas pessoas fazem isso. As correlações canônicas (das quais a LDA é um caso específico) podem ser feitas onde os dois conjuntos consistem em variáveis ​​binárias binárias ou até falsas. Mais uma vez, não há problema com a extração das funções latentes; os problemas com esse aplicativo potencialmente surgem quando valores-p ou objetos de classificação são chamados.

A partir de variáveis ​​binárias / ordinais, pode-se calcular correlações tetracóricas / policóricas e submetê-las ao LDA (se o programa permitir inserir matrizes de correlação no lugar dos dados); mas o cálculo de pontuações discriminantes no nível do caso será problemático.

Uma abordagem mais flexível seria transformar variáveis ​​categóricas (ordinais, nominais) em contínuas através de escala / quantificação ideal . Análise de correlação canônica não linear (OVERALS). Ele fará isso sob a tarefa de maximizar correlações canônicas entre os dois lados (a variável de classe e os "preditores" categóricos). Você pode tentar o LDA com as variáveis ​​transformadas.

A regressão logística (multinomial ou binária) pode ser outra alternativa ao LDA.

ttnphns
fonte
Isso é muito mais envolvido do que apenas usar um modelo destinado à situação (regressão logística). A análise discriminante não é tão robusta quanto alguns pensam. É fácil mostrar, com um único preditor categórico que é binário, que as probabilidades posteriores da não são muito precisas (por exemplo, prever a probabilidade de um evento dado o sexo de um sujeito).
Frank Harrell