construindo um modelo de classificação para dados estritamente binários

8

Eu tenho um conjunto de dados que é estritamente binário. o conjunto de valores de cada variável está no domínio: true, false.

a propriedade "especial" desse conjunto de dados é que a maioria esmagadora dos valores é "falsa".

Eu já usei um algoritmo de aprendizado de rede bayesiana para aprender uma rede a partir dos dados. no entanto, para um dos meus nós de destino (o mais importante, sendo a morte), o resultado da AUC não é muito bom; é um pouco melhor que o acaso. mesmo o valor preditivo positivo (VPP), que me foi sugerido no currículo, não era competitivo com o que é relatado na literatura com outras abordagens. note que a AUC (análise ROC) é o benchmark típico relatado nessa área de pesquisa clínica, mas também estou aberto a sugestões sobre como avaliar o modelo de classificação de forma mais apropriada, se houver outras idéias.

então, eu queria saber que outros modelos de classificação posso tentar para esse tipo de conjunto de dados com essa propriedade (principalmente valores falsos).

  • suportaria a ajuda da máquina vetorial? Até onde eu sei, o SVM lida apenas com variáveis ​​contínuas como preditores (embora tenha sido adaptado para multi-classe). mas minhas variáveis ​​são todas binárias.
  • uma floresta aleatória ajudaria?
  • a regressão logística seria aplicada aqui? Até onde eu sei, os preditores em regressão logística também são contínuos. existe uma versão generalizada para variáveis ​​binárias como preditores?

além do desempenho da classificação, suspeito que o SVM e a floresta aleatória possam superar a rede bayesiana, mas o problema muda para como explicar as relações nesses modelos (especialmente para os médicos).

Jane Wayne
fonte
Isso já foi solicitado muitas vezes, eu respondi perguntas semelhantes aqui: stats.stackexchange.com/questions/78469/… e aqui: stats.stackexchange.com/questions/67755/… e sobre como interpretar as saídas, você deve verificar como interpretar os efeitos marginais de suas variáveis ​​explicativas em sua variável de destino. Confira por exemplo: hosho.ees.hokudai.ac.jp/~kubo/Rdoc/library/randomForest/html/…
JEquihua 14/14
Se seus dados são muito escassos e geralmente muito ruins, convém procurar um classificador de vizinhos mais próximo. Embora certifique-se de pesar seus recursos corretamente.
Akavall #
@ Akavall, você poderia dar algumas dicas sobre como pesar os recursos corretamente? todos são binários (preditores e variável de classe). eu gostaria de manter o PPV como peso principal, mas também poderia usar informações mútuas. ou suponho que eu possa usar qualquer número de análises de associação de tabelas de contingência.
Jane Wayne
@ JaneWayne, os vizinhos mais próximos não fazem nada em termos de seleção de recursos / ponderação de recursos; se os recursos forem ruins ou ponderados incorretamente, o algoritmo se sairia muito mal; por outro lado, se os recursos ponderados corretamente, esse algoritmo simples pode se sair muito bem. No entanto, pesar adequadamente não é fácil. E sua solução atual pode já ser boa. Se você souber algo sobre o conjunto de dados, poderá atribuir pesos maiores manualmente a alguns recursos. Ou se você é capaz de avaliar o desempenho do modelo em diferentes momentos, você pode adaptar algum tipo de aprendizado algoritmo heurístico para escolher
Akavall
recursos baseados em desempenho. No entanto, aqui você deve assumir que a função objetivo que você está tentando maximizar é relativamente suave e existe um custo devido ao trade-off de exploração e exploração.
Akavall 18/03/14

Respostas:

4

suportaria a ajuda da máquina vetorial? até onde eu sei, o SVM lida apenas com variáveis ​​contínuas como preditores ...

Variáveis ​​binárias não são um problema para o SVM. Até os kernels especializados existem para exatamente esses dados (kernel Hamming, Tanimoto / Jaccard), embora eu não recomendo usá-los se você não estiver familiarizado com os métodos do kernel.

a regressão logística seria aplicada aqui? até onde eu sei, os preditores em regressão logística também são contínuos

A regressão logística funciona com preditores binários. Provavelmente é sua melhor opção.

como explicar as relações nesses modelos (especialmente para os médicos).

Se você usa SVM linear, é bastante simples explicar o que está acontecendo. A regressão logística é uma opção melhor, no entanto, uma vez que a maioria dos clínicos realmente conhece esses modelos (e, pelo que eu quero dizer, já ouvi falar ).

Marc Claesen
fonte
1

Eu gostaria de compartilhar minha experiência de classificar cerca de 0,3 milhão de dados binários com a maioria dos valores falsos. Eu usei SVM linear, árvores complexas, LDA, QDA, regressão logística etc. Todos esses métodos tiveram uma eficiência de cerca de 54%, o que não é bom. Segundo o meu professor, os métodos de classificação que podem me ajudar nesse problema são redes neurais, SVM quadrático, mas ainda não os testei. Espero que isso possa ajudar.

Animate_Ant
fonte