Eu tenho um conjunto de dados que é estritamente binário. o conjunto de valores de cada variável está no domínio: true, false.
a propriedade "especial" desse conjunto de dados é que a maioria esmagadora dos valores é "falsa".
Eu já usei um algoritmo de aprendizado de rede bayesiana para aprender uma rede a partir dos dados. no entanto, para um dos meus nós de destino (o mais importante, sendo a morte), o resultado da AUC não é muito bom; é um pouco melhor que o acaso. mesmo o valor preditivo positivo (VPP), que me foi sugerido no currículo, não era competitivo com o que é relatado na literatura com outras abordagens. note que a AUC (análise ROC) é o benchmark típico relatado nessa área de pesquisa clínica, mas também estou aberto a sugestões sobre como avaliar o modelo de classificação de forma mais apropriada, se houver outras idéias.
então, eu queria saber que outros modelos de classificação posso tentar para esse tipo de conjunto de dados com essa propriedade (principalmente valores falsos).
- suportaria a ajuda da máquina vetorial? Até onde eu sei, o SVM lida apenas com variáveis contínuas como preditores (embora tenha sido adaptado para multi-classe). mas minhas variáveis são todas binárias.
- uma floresta aleatória ajudaria?
- a regressão logística seria aplicada aqui? Até onde eu sei, os preditores em regressão logística também são contínuos. existe uma versão generalizada para variáveis binárias como preditores?
além do desempenho da classificação, suspeito que o SVM e a floresta aleatória possam superar a rede bayesiana, mas o problema muda para como explicar as relações nesses modelos (especialmente para os médicos).
Respostas:
Variáveis binárias não são um problema para o SVM. Até os kernels especializados existem para exatamente esses dados (kernel Hamming, Tanimoto / Jaccard), embora eu não recomendo usá-los se você não estiver familiarizado com os métodos do kernel.
A regressão logística funciona com preditores binários. Provavelmente é sua melhor opção.
Se você usa SVM linear, é bastante simples explicar o que está acontecendo. A regressão logística é uma opção melhor, no entanto, uma vez que a maioria dos clínicos realmente conhece esses modelos (e, pelo que eu quero dizer, já ouvi falar ).
fonte
Eu gostaria de compartilhar minha experiência de classificar cerca de 0,3 milhão de dados binários com a maioria dos valores falsos. Eu usei SVM linear, árvores complexas, LDA, QDA, regressão logística etc. Todos esses métodos tiveram uma eficiência de cerca de 54%, o que não é bom. Segundo o meu professor, os métodos de classificação que podem me ajudar nesse problema são redes neurais, SVM quadrático, mas ainda não os testei. Espero que isso possa ajudar.
fonte