Estou brincando com o conjunto de dados de câncer de mama e criei um gráfico de dispersão de todos os atributos para ter uma idéia de quais têm mais efeito na previsão da classe malignant
(azul) de benign
(vermelho).
Entendo que a linha representa o eixo x e a coluna representa o eixo y, mas não consigo ver quais observações posso fazer sobre os dados ou os atributos desse gráfico de dispersão.
Estou procurando ajuda para interpretar / fazer observações sobre os dados deste gráfico de dispersão ou se devo usar outra visualização para visualizar esses dados.
Código R que usei
link <- "http://www.cs.iastate.edu/~cs573x/labs/lab1/breast-cancer-wisconsin.arff"
breast <- read.arff(link)
cols <- character(nrow(breast))
cols[] <- "black"
cols[breast$class == 2] <- "red"
cols[breast$class == 4] <- "blue"
pairs(breast, col=cols)
Respostas:
Não tenho certeza se isso é de alguma ajuda para você, mas para a EDA principal eu realmente gosto do
tabplot
pacote. Dá a você uma boa noção de quais possíveis correlações podem existir em seus dados.fonte
Existem vários problemas que tornam difícil ou impossível extrair qualquer informação utilizável da sua matriz de gráficos de dispersão.
Você tem muitas variáveis exibidas juntas. Quando você tem muitas variáveis em uma matriz de gráficos de dispersão, cada gráfico se torna pequeno demais para ser útil. O importante a ser observado é que muitas parcelas são duplicadas, o que desperdiça espaço. Além disso, embora você queira ver todas as combinações, não precisa plotá-las todas juntas. Observe que você pode quebrar uma matriz de gráficos de dispersão em blocos menores de quatro ou cinco (um número que é útil para visualização). Você só precisa fazer vários gráficos, um para cada bloco.
Como você tem muitos dados em pontos discretos no espaço , eles acabam se acumulando. Assim, você não pode ver quantos pontos existem em cada local. Existem vários truques para ajudá-lo a lidar com isso.
Usando essas estratégias, aqui está um exemplo de código R e os gráficos feitos:
fonte
É difícil visualizar mais de 3-4 dimensões em um único gráfico. Uma opção seria usar a análise de componentes principais (PCA) para compactar os dados e depois visualizá-los nas principais dimensões. Existem vários pacotes diferentes no R (assim como a
prcomp
função base ) que tornam isso sintaticamente fácil ( consulte CRAN ); interpretar as plotagens, loadings, é outra história, mas acho mais fácil do que uma matriz ordinal de 10 dispersões.fonte