Com base na sua experiência, você tem alguma sugestão para representar matrizes de correlação variáveis no tempo? Eu olhei para /quant/1565/how-do-i-graphically-represent-the-evolution-of-a-covariance-matrix-over-time , mas não consegui encontrar nenhum bom artigo. Estou fazendo essa pergunta porque sou bastante novo no campo da análise de dados, e o único livro que li até agora é o de Wickham ggplot2
. Então, pensei em perguntar a especialistas sobre isso.
Eu sinceramente aprecio qualquer ajuda.
correlation
data-visualization
torre de vigia
fonte
fonte
Respostas:
Há várias questões aqui (e se você
ggplot2
me parece inteiramente ortogonal a elas). Primeiro, reconheça que essas correlações não necessariamente se dimensionam de uma maneira intuitiva e "linear" (em grande parte porque seu alcance possível é limitado). Vale a pena pensar em como você deseja representar os valores. Por exemplo, você pode usar:Eu realmente não sei nada sobre a sua situação, por isso é difícil para mim dizer, mas meu padrão seria usar as pontuações transformadas ( ).zr
Em seguida, você precisa decidir o que dizer dos dados que deseja incluir (de todo ou com mais ou menos destaque). Por exemplo, você deseja incluir as magnitudes absolutas dos valores, ou apenas suas mudanças (cf. níveis x mudanças na economia)? Você se preocupa principalmente com as magnitudes das mudanças (isto é, valores absolutos), sejam elas aumentos ou diminuições (os sinais, em sentido absoluto, ou em direção ou longe de nenhuma correlação), ou ambas?
Dado que você deseja visualizar uma matriz de correlação (ou seja, um conjunto de correlações), vale lembrar que elas não serão independentes . Considere que uma mudança em apenas uma variável terá efeito em várias correlações, mesmo que as outras variáveis sejam constantes ao longo do tempo. Então, novamente, depende se isso importa para você.
Em outras palavras, descobrir exatamente com o que você realmente se importa é vital. Não haverá uma visualização que capture todas essas facetas.
Pelo seu comentário , deduzo que você terá apenas duas matrizes de correlação, antes e depois. Isso simplifica as coisas. Novamente, sem nenhuma informação sobre sua situação, dados ou objetivos, eu provavelmente faria um gráfico de dispersão com antes e depois no eixo X, e no eixo Y, e os dois pontos representando a mesma correlação unida por uma linha segmento. Considere este exemplo, codificado em R:zr
As figuras acima exibem os níveis das correlações e a quantidade de alteração. Você pode ver vários recursos, como uma convergência para . A diferença entre a utilização de e é que as -scores são mais uniformemente distribuídos de antemão. A distância entre e é igual à distância entre e , por exemplo. Por outro lado, para , as correlações próximas ar=0 zr r r 0 .4 .4 .8 zr 0 são agrupados e a forte correlação está muito mais distante do resto. O que esses números não capturam é a não independência dessas linhas. Você pode ver no mapa de calor abaixo (usando valores absolutos das diferenças em 's) que as alterações maiores estão associadas à variável 5. zr
fonte
Na minha opinião, é melhor quantificar o efeito de alterações nos parâmetros (um proxy para correlações locais) em vez de tentar um visual, pois as tentativas de comparações visuais podem ser bastante subjetivas. Sua pergunta é semelhante a "Como faço para testar se os parâmetros do meu mudança de modelo ao longo do tempo ". O que fiz foi programar o teste de Chow para determinar em que momento os parâmetros apresentam maior divergência. A descoberta disso leva a um teste direto de significância, possivelmente resultando na conclusão de que "dados anteriores" devem ser deixados de lado.
fonte