Na análise discriminante, a variável dependente é categórica, mas posso usar uma variável categórica (por exemplo, status residencial: rural, urbano) juntamente com alguma outra variável contínua como variável independente na análise discriminante linear?
15
Respostas:
A análise discriminante assume uma distribuição normal multivariada, porque o que geralmente consideramos preditores é realmente uma variável dependente multivariada, e a variável de agrupamento é considerada preditora. Isso significa que variáveis categóricas que devem ser tratadas como preditores no sentido que você deseja não são bem tratadas. Essa é uma das razões pelas quais muitos, inclusive eu, consideramos a análise discriminante tornada obsoleta pela regressão logística. A regressão logística não faz nenhuma suposição distributiva de qualquer tipo, no lado esquerdo ou no lado direito do modelo. A regressão logística é um modelo de probabilidade direta e não exige que se use a regra de Bayes para converter resultados em probabilidades, assim como a análise discriminante.
fonte
A resposta curta é mais do que sim.
Uma nota preliminar. É difícil dizer se as variáveis que produzem funções discriminantes por si mesmas devem ser chamadas de "independentes" ou "dependentes". O LDA é basicamente um caso específico de análise de correlação canônica e, portanto, é ambidirecional. Pode ser visto como MANOVA (com a variável de classe como fator independente) ou, quando a classe é dicotômica, como uma regressão linear da classe como variável dependente. Portanto, não é muito legal sempre opor-se à LDA com regressões unidirecionais, como a logística.
O LDA assume que as variáveis (aquelas que você chamou de "independentes") vêm da distribuição normal multivariada, portanto - todas elas contínuas. Essa suposição é importante para (1) o estágio de classificação da LDA e (2) a significância do teste dos discriminantes produzidos no estágio de extração. A extração dos próprios discriminantes não precisa da suposição.
No entanto, o LDA é bastante robusto à violação da suposição, que às vezes é vista como uma garantia para fazê-lo em dados binários . De fato, algumas pessoas fazem isso. As correlações canônicas (das quais a LDA é um caso específico) podem ser feitas onde os dois conjuntos consistem em variáveis binárias binárias ou até falsas. Mais uma vez, não há problema com a extração das funções latentes; os problemas com esse aplicativo potencialmente surgem quando valores-p ou objetos de classificação são chamados.
A partir de variáveis binárias / ordinais, pode-se calcular correlações tetracóricas / policóricas e submetê-las ao LDA (se o programa permitir inserir matrizes de correlação no lugar dos dados); mas o cálculo de pontuações discriminantes no nível do caso será problemático.
Uma abordagem mais flexível seria transformar variáveis categóricas (ordinais, nominais) em contínuas através de escala / quantificação ideal . Análise de correlação canônica não linear (OVERALS). Ele fará isso sob a tarefa de maximizar correlações canônicas entre os dois lados (a variável de classe e os "preditores" categóricos). Você pode tentar o LDA com as variáveis transformadas.
A regressão logística (multinomial ou binária) pode ser outra alternativa ao LDA.
fonte