Existe um "olá, mundo" para gráficos estatísticos?

25

Na programação de computadores, existe um primeiro programa clássico para aprender / ensinar um novo idioma ou sistema, chamado "olá, mundo". http://en.wikipedia.org/wiki/Hello_world_program

Existe uma primeira visualização clássica de dados para usar um pacote de gráficos? Se assim for, o que é? E se não, quais seriam os bons candidatos?

Abraham D Flaxman
fonte
3
Bem vindo ao nosso site! Nosso FAQ pede que "você deve fazer apenas perguntas práticas e respondíveis com base nos problemas reais que enfrenta". Você poderia elaborar qual é o seu problema real?
whuber
3
Gostaria de identificar o "item de teste padrão" para gráficos estatísticos, se houver, para incluir no material de treinamento que estou desenvolvendo.
Abraham D Flaxman
2
Como as aplicações gráficas variam muito, é difícil conceber algum gráfico padrão ou universal. Não são alguns padrões para certos tipos de pacotes gráficas, tais como coelhos historicamente famosos e bules para gráficos 3D. Para que sua pergunta seja respondida, seria melhor especificar quais pacotes o seu material de treinamento deve cobrir.
whuber
11
Bom ponto, obrigado. Vou incluir pelo menos algo sobre gráficos estatísticos em R, STATA, Python e Javascript.
Abraham D Flaxman
@AbrahamDFlaxman Estou curioso sobre este "material de treinamento" e quem e para que ele se destina. Você pode dizer mais?
Peter Flom - Restabelece Monica

Respostas:

9

Dois pensamentos:

R. Quando tento chegar à essência do "Hello World", é o mínimo que deve ser feito na linguagem de programação para gerar um programa válido que imprima uma única linha de texto. Isso sugere para mim que o seu "Hello World" deve ser um conjunto de dados univariado, a coisa mais básica que você pode conectar a um programa estatístico ou gráfico.

B. Não conheço nenhum gráfico "Hello World". O mais próximo que posso chegar é de conjuntos de dados típicos incluídos em vários pacotes estatísticos, como os AirPassengers da R. Em R, uma declaração gráfica da Hello World seria:

plot (AirPassengers)  # Base graphics, prints line graph

ou

qplot (AirPassengers) # ggplot2, prints a bar chart

ou

xyplot (AirPassengers) # lattice, which doesn't have a generic plot

Pessoalmente, acho que o gráfico mais simples é um gráfico de linhas em que você tem N itens nos intervalos Y e X de 1: N. Mas isso não é um padrão.

Wayne
fonte
11
O consenso desta e de outras respostas é que atualmente não existe um "olá, mundo" dos gráficos estatísticos. Eu acho que sua sugestão de um conjunto de dados univariado, com N itens em Y e X variando de 1: N, é convincente. Em analogia adicional a "olá, mundo", seria bom ter um N pequeno e um Y memorável. O que você acha de N = 5 e Y = (3,1,4,1,5,9) (isto é, dígitos de pi)? Talvez isso seja muito matemático.
Abraham D Flaxman
11
@AbrahamDFlaxman: Eu não acho que seja para mathy, acho ótimo. Memorável, curto, e o gráfico não é apenas uma linha reta ou algo assim. Os dados são bem conhecidos e não estão vinculados a nenhum programa específico e podem ser estendidos arbitrariamente para quem quiser mais pontos. Eu voto a favor!
Wayne
24

Eu provavelmente começaria com gráficos de dispersão e demonstraria as quatro correlações feias .

StasK
fonte
2
+1. Mas você pode considerar algo um pouco mais geral, como alguma forma de plotagem de linha. Afinal, assim que você pode desenhar um segmento de linha, pode desenhar qualquer coisa . Isso ecoa a idéia por trás de "Olá, mundo!": Quando você obtém uma saída legível de um programa, sabe que pode se comunicar com o computador e o resto são apenas detalhes :-). (Os detalhes podem ser difíceis . Ao aprender a escrever o código do Assembly para o mainframe IBM 360, a maneira mais simples de obter saída era armazená-lo na RAM e criar um erro no final da execução, fazendo com que o sistema imprimisse um dump de núcleo hexadecimal !)
whuber
Penso que o quarteto de Anscombe no total contém muito para ser usado como o "olá, mundo" dos gráficos estatísticos, mas a Figura 1 de seu artigo pode ser um bom candidato. Outras respostas defenderam um conjunto de dados univariado, no qual estou inclinado.
Abraham D Flaxman
7

O histograma de uma amostra de uma variável aleatória distribuída normalmente.

Karsten W.
fonte
Eu gosto da aparência, mas talvez os histogramas exijam mais processamento de dados do que dispersões, e apresentar amostras da distribuição normal pode ser uma distração.
Abraham D Flaxman
Acabei de notar que este é o primeiro exemplo da página da Matplotlib: matplotlib.org
Abraham D Flaxman
5

Eu acho que a resposta é "não". Ou seja, não há uma resposta geralmente acordada para sua pergunta.

O @StasK aponta para o gráfico de dispersão.

Mas eu consideraria o que plotfaz R: depende dos dados!

Você poderia argumentar que as estatísticas univariadas são mais simples que as bivariadas. Então ... talvez a coisa mais básica seja um histograma; ou talvez um gráfico de barras; talvez um gráfico de densidade.

Se o ponto de "Olá, mundo!" é mostrar que você pode fazer o computador fazer algo, então eu diria que qualquer enredo faria.

Peter Flom - Restabelece Monica
fonte
11
Talvez a ausência de um item de teste padrão indique que você está correto e é mais apropriado usar qualquer plotagem mais simples no sistema que está sendo demonstrado. Isso dificulta a comparação, no entanto.
Abraham D Flaxman
5

Não tenho certeza se ele se qualifica exatamente como um mundo olá, mas no R também há demos integradas em muitos pacotes. por exemplo

library(graphics)
demo(graphics)

orientará o usuário em alguns gráficos básicos disponíveis no pacote. Basta clicar com o mouse sobre cada imagem para ver as ilustrações gráficas básicas. Com apenas duas linhas, o usuário é introduzido em alguns dos recursos inspiradores dos gráficos R para estatísticas.

O código correspondente para gerar os gráficos é exibido no console do R.

insira a descrição da imagem aqui

tapinha
fonte
2

Eu diria que havia dois programas do tipo "Hello World" para visualização de dados:

Imprimir ("Hello World"): Algo como o histograma de uma variável normalmente distribuída ou talvez um gráfico de dispersão simples X, Y.

Para algo um pouco mais complexo, como a seção onde se pega os princípios do Hello World e começa a brincar com a entrada do usuário, os caracteres de escape e afins, eu diria que estaria brincando com o conjunto de dados Iris.

Fomite
fonte