Enquanto me preparava para uma palestra que darei em breve, recentemente comecei a explorar duas ferramentas principais (gratuitas) para visualização interativa de dados: GGobi e mondrian - ambas oferecem uma grande variedade de recursos (mesmo que sejam um pouco problemáticos).
Desejo pedir sua ajuda na articulação (tanto para mim quanto para meu futuro público). Quando é útil usar gráficos interativos? Tanto para exploração de dados (para nós mesmos) quanto para apresentação de dados (para um "cliente")?
Pois, ao explicar os dados para um cliente, posso ver o valor da animação para:
- Usando "identificar / vincular / escovar" para ver qual ponto de dados no gráfico é o quê.
- Apresentando uma análise de sensibilidade dos dados (por exemplo: "se removermos esse ponto, eis o que obteremos)
- Mostrando o efeito de diferentes grupos nos dados (por exemplo: "vejamos nossos gráficos para homens e agora para mulheres")
- Mostrando o efeito do tempo (ou idade, ou em geral, oferecendo outra dimensão à apresentação)
Pois, quando exploramos os dados, podemos ver o valor de identificar / vincular / escovar ao explorar um outlier em um conjunto de dados em que estamos trabalhando.
Mas, além desses dois exemplos, não tenho certeza de que outro uso prático essas técnicas oferecem. Especialmente para nossa própria exploração de dados!
Pode-se argumentar que a parte interativa é boa para explorar (por exemplo) um comportamento diferente de diferentes grupos / clusters nos dados. Mas quando (na prática) eu me aproximei de tal situação, o que eu costumava fazer era executar os procedimentos estatísticos relevantes (e testes post-hoc) - e o que eu achava significativo, então traçava cores dividindo claramente os dados para os dados. grupos relevantes. Pelo que vi, essa é uma abordagem mais segura do que "questionar" os dados (o que poderia facilmente levar à dragagem de dados (se o escopo da comparação múltipla necessária para a correção ainda não estiver claro).
Eu ficaria muito feliz em ler sua experiência / pensamentos sobre este assunto.
(esta pergunta pode ser um wiki - embora não seja subjetiva e uma resposta bem pensada tenha o prazer de receber minha marca de "resposta" :))
Respostas:
Além de vincular dados quantitativos ou qualitativos a padrões espaciais, como ilustrado por @whuber, eu gostaria de mencionar o uso de EDA, com escovação e vários gráficos de vinculação, para análise de dados longitudinal e de alta dimensão .
Ambos são discutidos no excelente livro, Gráficos interativos e dinâmicos para análise de dados com R e GGobi , de Dianne Cook e Deborah F. Swayne (Springer UseR !, 2007), que você certamente conhece. Os autores têm uma boa discussão sobre a EDA no capítulo 1, justificando a necessidade da EDA "forçar o inesperado sobre nós", citando John Tukey (p. 13): O uso de displays interativos e dinâmicos não é bisbilhoteiro , nem preliminar. inspeção (por exemplo, resumos puramente gráficos dos dados), mas é meramente visto como uma investigação interativa dos dados que pode preceder ou complementar a pura modelagem estatística baseada em hipóteses.
O uso do GGobi em conjunto com sua interface R ( rggobi ) também resolve o problema de como gerar gráficos estáticos para relatório intermediário ou publicação final, mesmo com o Projection Pursuit (pp. 26-34), graças aos pacotes DescribeDisplay ou ggplot2 .
Na mesma linha, Michael Friendly há muito tempo defende o uso da visualização de dados na análise de dados categóricos, que tem sido amplamente exemplificada no pacote vcd, mas também no pacote vcdExtra mais recente (incluindo visualização dinâmica através do pacote rgl ), que atua como uma cola entre os pacotes vcd e gnm para estender os modelos lineares de log. Recentemente, ele deu um bom resumo desse trabalho durante a 6ª CARME conferência, avanços na visualização Categorical dados usando o VCD, gnm e Pacotes vcdExtra em R .
Portanto, a EDA também pode ser pensada como uma explicação visual dos dados (no sentido de que pode dar conta de padrões inesperados nos dados observados), antes de uma abordagem de modelagem puramente estatística ou em paralelo. Ou seja, a EDA não apenas fornece maneiras úteis para estudar a estrutura interna dos dados disponíveis, mas também pode ajudar a refinar e / ou resumir os modelos estatísticos aplicados a ela. É essencialmente o que os biplots permitem fazer, por exemplo. Embora não sejam técnicas de análise multidimensional em si , são ferramentas para visualizar resultados da análise multidimensional (fornecendo uma aproximaçãodas relações ao considerar todos os indivíduos juntos, ou todas as variáveis juntas, ou ambas). As pontuações de fator podem ser usadas na modelagem subsequente no lugar da métrica original para reduzir a dimensionalidade ou fornecer níveis intermediários de representação.
Nota
Correndo o risco de ser antiquado, ainda estou usando
xlispstat
( Luke Tierney ) de tempos em tempos. Possui funcionalidades simples, porém eficazes, para monitores interativos, atualmente não disponíveis nos gráficos de base R. Não conheço recursos semelhantes no Clojure + Incanter (+ Processing).fonte
A vinculação dinâmica de gráficos é natural e eficaz para a análise exploratória de dados espaciais , ou ESDA . Os sistemas ESDA normalmente vinculam um ou mais mapas quantitativos (como mapas de coropletas ) com visualizações tabulares e gráficos estatísticos dos dados subjacentes. Alguns desses recursos fazem parte de alguns sistemas GIS de desktop há cerca de 15 anos, particularmente o ArcView 3 (um produto comercial descontinuado). O software gratuito GeoDa fornece alguns desses recursos em um ambiente projetado para exploração de dados espaciais e análise estatística. É desajeitado, com uma interface idiossincrática e gráficos não polidos, mas bastante livre de bugs.
Esse uso da EDA contorna a objeção de que o teste estatístico pode ser melhor do que a exploração interativa, porque em muitas situações (a maioria?) Não existe um modelo estatístico claro, não existe um teste estatístico óbvio (ou mesmo apropriado) e o teste de hipóteses é frequentemente irrelevante: as pessoas precisam ver o que ocorre , onde ocorre e observar as relações estatísticas entre as variáveis em um contexto espacial. Nem toda análise de dados é ou deve consistir em procedimentos formais!
fonte
Para mim, a visualização interativa é útil apenas para minha própria exploração ou para trabalhar com um cliente muito prático. Ao lidar com uma apresentação final, prefiro escolher o gráfico estático que melhor exiba meu argumento. Caso contrário, os clientes podem ficar totalmente distraídos com o fator gee-whiz.
O maior benefício que recebo é um nível de velocidade que me libera para examinar muito mais do que teria se parasse para programar uma solução. O JMP é uma das minhas ferramentas favoritas para isso, pois integra muito do que eu quero em uma única interface. Eu acho que a maioria das pessoas que são bons programadores estatísticos tenta algo como JMP (ou GGobi, etc.) por um período muito curto para realmente ficar bom nisso. O JMP, em particular, dará a impressão de que você o conhece apenas olhando os menus. No entanto, é necessário trabalhar com o manual para descobrir todo o seu poder.
Você mencionou minha principal preocupação com esse nível de velocidade: você acaba sem ter absolutamente nenhuma idéia do que significam seus valores-p. Em apenas alguns minutos, você pode examinar centenas de relacionamentos visualmente. Fazer testes de hipóteses depois de tudo isso é totalmente enganador, mas vejo as pessoas fazendo isso o tempo todo.
Um recurso que eu amo no GGobi é a sua busca por projeção, na qual você especifica que tipo de padrão procura em um espaço de alta dimensão e depois se senta e observa "perseguir" esse objetivo. Coisas boas!
fonte