Eu tenho um conjunto de dados de mais de 1000 amostras de 19 variáveis. Meu objetivo é prever uma variável binária com base nas outras 18 variáveis (binárias e contínuas). Estou bastante confiante de que seis das variáveis de previsão estão associadas à resposta binária, no entanto, gostaria de analisar melhor o conjunto de dados e procurar outras associações ou estruturas que possam estar faltando. Para fazer isso, decidi usar o PCA e o armazenamento em cluster.
Ao executar o PCA nos dados normalizados, é necessário manter 11 componentes para manter 85% da variação. Ao traçar os gráficos de pares, recebo o seguinte:
Não sei ao certo o que vem a seguir ... Não vejo um padrão significativo no pca e estou me perguntando o que isso significa e se poderia ter sido causado pelo fato de algumas das variáveis serem binárias. Ao executar um algoritmo de clustering com 6 clusters, obtenho o seguinte resultado, que não é exatamente uma melhoria, embora alguns blobs pareçam se destacar (os amarelos).
Como você provavelmente pode perceber, não sou especialista em PCA, mas vi alguns tutoriais e como pode ser poderoso ter uma visão geral das estruturas no espaço de alta dimensão. Com o famoso conjunto de dados dígitos do MNIST (ou o IRIS), ele funciona muito bem. Minha pergunta é: o que devo fazer agora para dar mais sentido ao PCA? O armazenamento em cluster parece não pegar algo útil, como posso saber que não há padrão no PCA ou o que devo tentar em seguida para encontrar padrões nos dados do PCA?
Respostas:
Você explicou que o gráfico de variância me diz que o PCA não faz sentido aqui. 11/18 é 61%, então você precisa de 61% de suas variáveis para explicar 85% da variação. Esse não é o caso do PCA, na minha opinião. Uso PCA quando 3-5 fatores de 18 explicam 95% ou mais da variação.
ATUALIZAÇÃO: observe o gráfico da porcentagem acumulada de variação explicada pelo número de PCs. Isso é do campo de modelagem da estrutura a termo da taxa de juros. Você vê como três componentes explicam mais de 99% da variação total. Pode parecer um exemplo inventado para publicidade de PCA :) No entanto, isso é algo real. Os prazos de taxa de juros estão muito correlacionados, é por isso que o PCA é muito natural nesse aplicativo. Em vez de lidar com algumas dezenas de tenores, você lida com apenas 3 componentes.
fonte
Se você tiver amostras e apenas preditores, seria bastante razoável usar apenas todos os preditores em um modelo. Nesse caso, uma etapa do PCA pode muito bem ser desnecessária.p = 19N>1000 p=19
Se você está confiante de que apenas um subconjunto de variáveis é realmente explicativo, o uso de um modelo de regressão esparso, por exemplo, Elastic Net, pode ajudá-lo a estabelecer isso.
Além disso, a interpretação dos resultados do PCA usando entradas do tipo misto (binário versus real, escalas diferentes etc., consulte a pergunta CV aqui ) não é tão direta e você pode evitá-lo, a menos que haja uma razão clara para fazê-lo.
fonte
Vou interpretar sua pergunta da maneira mais sucinta possível. Deixe-me saber se isso muda o seu significado.
Também não vejo nenhum "padrão significativo", além da consistência em seus gráficos de pares. São apenas bolhas mais ou menos circulares. Estou curioso para saber o que você esperava ver. Clusters de pontos claramente separados em alguns dos pares de gráficos? Algumas parcelas muito próximas de linear?
Os resultados do seu PCA - os pares de bloblike e apenas 85% da variação capturada nos 11 principais componentes principais - não impedem que seu palpite sobre seis variáveis sejam suficientes para a previsão de resposta binária.
Imagine estas situações:
Digamos que os resultados do PCA mostrem que 99% da variação é capturada por 6 componentes principais.
Isso pode parecer apoiar seu palpite sobre 6 variáveis preditivas - talvez você possa definir um plano ou alguma outra superfície nesse espaço tridimensional que classifique os pontos muito bem e você possa usar essa superfície como um preditor binário. O que me leva ao número 2 ...
Digamos que seus 6 principais componentes principais possuam gráficos pareados assim
Mas vamos codificar por cores uma resposta binária arbitrária
Mesmo que você tenha conseguido capturar quase toda (99%) da variação em 6 variáveis, ainda não é garantido que você tenha uma separação espacial para prever sua resposta binária.
Você pode realmente precisar de vários limites numéricos (que podem ser plotados como superfícies nesse espaço tridimensional), e a associação de um ponto à sua classificação binária pode depender de uma expressão condicional complexa feita da relação desse ponto com cada um desses limites. Mas isso é apenas um exemplo de como uma classe binária pode ser prevista. Existem inúmeras estruturas e métodos de dados para representação, treinamento e previsão. Este é um teaser. Citar,
fonte