Quando a visualização interativa de dados é útil?

17

Enquanto me preparava para uma palestra que darei em breve, recentemente comecei a explorar duas ferramentas principais (gratuitas) para visualização interativa de dados: GGobi e mondrian - ambas oferecem uma grande variedade de recursos (mesmo que sejam um pouco problemáticos).

Desejo pedir sua ajuda na articulação (tanto para mim quanto para meu futuro público). Quando é útil usar gráficos interativos? Tanto para exploração de dados (para nós mesmos) quanto para apresentação de dados (para um "cliente")?

Pois, ao explicar os dados para um cliente, posso ver o valor da animação para:

  • Usando "identificar / vincular / escovar" para ver qual ponto de dados no gráfico é o quê.
  • Apresentando uma análise de sensibilidade dos dados (por exemplo: "se removermos esse ponto, eis o que obteremos)
  • Mostrando o efeito de diferentes grupos nos dados (por exemplo: "vejamos nossos gráficos para homens e agora para mulheres")
  • Mostrando o efeito do tempo (ou idade, ou em geral, oferecendo outra dimensão à apresentação)

Pois, quando exploramos os dados, podemos ver o valor de identificar / vincular / escovar ao explorar um outlier em um conjunto de dados em que estamos trabalhando.

Mas, além desses dois exemplos, não tenho certeza de que outro uso prático essas técnicas oferecem. Especialmente para nossa própria exploração de dados!

Pode-se argumentar que a parte interativa é boa para explorar (por exemplo) um comportamento diferente de diferentes grupos / clusters nos dados. Mas quando (na prática) eu me aproximei de tal situação, o que eu costumava fazer era executar os procedimentos estatísticos relevantes (e testes post-hoc) - e o que eu achava significativo, então traçava cores dividindo claramente os dados para os dados. grupos relevantes. Pelo que vi, essa é uma abordagem mais segura do que "questionar" os dados (o que poderia facilmente levar à dragagem de dados (se o escopo da comparação múltipla necessária para a correção ainda não estiver claro).

Eu ficaria muito feliz em ler sua experiência / pensamentos sobre este assunto.

(esta pergunta pode ser um wiki - embora não seja subjetiva e uma resposta bem pensada tenha o prazer de receber minha marca de "resposta" :))

Tal Galili
fonte
3
Pelo menos no meu caso, estou um pouco no mesmo barco. Eu aprecio o Mondrian e o mantenho atualizado, mas quando eu realmente exploro um novo conjunto de dados, ele tende a ser no R, que é menos interativo, mas mais flexível no geral. Comecei a escrever uma resposta completa para você e percebi que estava falando na teoria e não na experiência real.
Wayne

Respostas:

8

Além de vincular dados quantitativos ou qualitativos a padrões espaciais, como ilustrado por @whuber, eu gostaria de mencionar o uso de EDA, com escovação e vários gráficos de vinculação, para análise de dados longitudinal e de alta dimensão .

Ambos são discutidos no excelente livro, Gráficos interativos e dinâmicos para análise de dados com R e GGobi , de Dianne Cook e Deborah F. Swayne (Springer UseR !, 2007), que você certamente conhece. Os autores têm uma boa discussão sobre a EDA no capítulo 1, justificando a necessidade da EDA "forçar o inesperado sobre nós", citando John Tukey (p. 13): O uso de displays interativos e dinâmicos não é bisbilhoteiro , nem preliminar. inspeção (por exemplo, resumos puramente gráficos dos dados), mas é meramente visto como uma investigação interativa dos dados que pode preceder ou complementar a pura modelagem estatística baseada em hipóteses.

O uso do GGobi em conjunto com sua interface R ( rggobi ) também resolve o problema de como gerar gráficos estáticos para relatório intermediário ou publicação final, mesmo com o Projection Pursuit (pp. 26-34), graças aos pacotes DescribeDisplay ou ggplot2 .

Na mesma linha, Michael Friendly há muito tempo defende o uso da visualização de dados na análise de dados categóricos, que tem sido amplamente exemplificada no pacote vcd, mas também no pacote vcdExtra mais recente (incluindo visualização dinâmica através do pacote rgl ), que atua como uma cola entre os pacotes vcd e gnm para estender os modelos lineares de log. Recentemente, ele deu um bom resumo desse trabalho durante a 6ª CARME conferência, avanços na visualização Categorical dados usando o VCD, gnm e Pacotes vcdExtra em R .

Portanto, a EDA também pode ser pensada como uma explicação visual dos dados (no sentido de que pode dar conta de padrões inesperados nos dados observados), antes de uma abordagem de modelagem puramente estatística ou em paralelo. Ou seja, a EDA não apenas fornece maneiras úteis para estudar a estrutura interna dos dados disponíveis, mas também pode ajudar a refinar e / ou resumir os modelos estatísticos aplicados a ela. É essencialmente o que os biplots permitem fazer, por exemplo. Embora não sejam técnicas de análise multidimensional em si , são ferramentas para visualizar resultados da análise multidimensional (fornecendo uma aproximaçãodas relações ao considerar todos os indivíduos juntos, ou todas as variáveis ​​juntas, ou ambas). As pontuações de fator podem ser usadas na modelagem subsequente no lugar da métrica original para reduzir a dimensionalidade ou fornecer níveis intermediários de representação.

Nota

Correndo o risco de ser antiquado, ainda estou usando xlispstat( Luke Tierney ) de tempos em tempos. Possui funcionalidades simples, porém eficazes, para monitores interativos, atualmente não disponíveis nos gráficos de base R. Não conheço recursos semelhantes no Clojure + Incanter (+ Processing).

chl
fonte
8

A vinculação dinâmica de gráficos é natural e eficaz para a análise exploratória de dados espaciais , ou ESDA . Os sistemas ESDA normalmente vinculam um ou mais mapas quantitativos (como mapas de coropletas ) com visualizações tabulares e gráficos estatísticos dos dados subjacentes. Alguns desses recursos fazem parte de alguns sistemas GIS de desktop há cerca de 15 anos, particularmente o ArcView 3 (um produto comercial descontinuado). O software gratuito GeoDa fornece alguns desses recursos em um ambiente projetado para exploração de dados espaciais e análise estatística. É desajeitado, com uma interface idiossincrática e gráficos não polidos, mas bastante livre de bugs.

Esse uso da EDA contorna a objeção de que o teste estatístico pode ser melhor do que a exploração interativa, porque em muitas situações (a maioria?) Não existe um modelo estatístico claro, não existe um teste estatístico óbvio (ou mesmo apropriado) e o teste de hipóteses é frequentemente irrelevante: as pessoas precisam ver o que ocorre , onde ocorre e observar as relações estatísticas entre as variáveis em um contexto espacial. Nem toda análise de dados é ou deve consistir em procedimentos formais!

whuber
fonte
Olá Whuber. Seu exemplo da ESDA é um ótimo exemplo, obrigado! Se você (ou outros) puder sugerir outros exemplos de quando os procedimentos formais são menos relevantes - isso seria muito útil.
Tal Galili
7

Para mim, a visualização interativa é útil apenas para minha própria exploração ou para trabalhar com um cliente muito prático. Ao lidar com uma apresentação final, prefiro escolher o gráfico estático que melhor exiba meu argumento. Caso contrário, os clientes podem ficar totalmente distraídos com o fator gee-whiz.

O maior benefício que recebo é um nível de velocidade que me libera para examinar muito mais do que teria se parasse para programar uma solução. O JMP é uma das minhas ferramentas favoritas para isso, pois integra muito do que eu quero em uma única interface. Eu acho que a maioria das pessoas que são bons programadores estatísticos tenta algo como JMP (ou GGobi, etc.) por um período muito curto para realmente ficar bom nisso. O JMP, em particular, dará a impressão de que você o conhece apenas olhando os menus. No entanto, é necessário trabalhar com o manual para descobrir todo o seu poder.

Você mencionou minha principal preocupação com esse nível de velocidade: você acaba sem ter absolutamente nenhuma idéia do que significam seus valores-p. Em apenas alguns minutos, você pode examinar centenas de relacionamentos visualmente. Fazer testes de hipóteses depois de tudo isso é totalmente enganador, mas vejo as pessoas fazendo isso o tempo todo.

Um recurso que eu amo no GGobi é a sua busca por projeção, na qual você especifica que tipo de padrão procura em um espaço de alta dimensão e depois se senta e observa "perseguir" esse objetivo. Coisas boas!

user3155
fonte
2
+1. A observação sobre as apresentações finais traz à mente, como um contra-exemplo notável, a famosa palestra TED de Hans Rosling em 2006 ( ted.com/talks/… ). Re: o ponto de examinar "muito mais", lembro-me de como um advogado em um depoimento me perguntou como eu havia examinado os dados que sustentavam meu testemunho e como o rosto dela caiu quando soube que o trabalho havia sido feito de maneira interativa e portanto, nada foi impresso ou salvo (que ela poderia intimar, examinar e tentar impugnar). ;-)
whuber
O JMP é um dos aplicativos de estatísticas mais legais do mercado. Os estatísticos definitivamente devem aprender a usá-lo, apenas para impressionar seus clientes. É caro, mas barato se você é um estudante ou membro da equipe de uma escola / faculdade / uni
Neil McGuigan