Como dimensionar plotagens de violino para comparações?

14

Estou tentando desenhar gráficos de violino e me perguntando se existe uma prática recomendada para escalá-los entre os grupos. Aqui estão três opções que tentei usar o mtcarsconjunto de dados R (Motor Trend Cars de 1973, encontrado aqui ).

Larguras iguais

Parece ser o que o papel original * faz e o que R vioplotfaz ( exemplo ). Bom para comparar a forma.

Parcelas de violino de área igual

Áreas Iguais

Parece certo, pois cada gráfico é um gráfico de probabilidade e, portanto, a área de cada um deve ser igual a 1,0 em algum espaço de coordenadas. Bom para comparar a densidade dentro de cada grupo, mas parece mais apropriado se as parcelas forem sobrepostas.

Parâmetros de violino de largura igual

Áreas Ponderadas

Como área igual, mas ponderada pelo número de observações. O 6 cilindros fica relativamente mais fino, pois há menos desses carros. Bom para comparar densidade entre grupos.

Parcelas de violino com área ponderada

* Gráficos de violino: uma sinergia de traço de densidade de plotagem de caixa (DOI: 10.2307 / 2685478)

xan
fonte
1
O objetivo das parcelas determinará, em grande medida, quais soluções são adequadas. O que você está tentando mostrar com eles?
whuber
Boa pergunta, embora eu não tenha uma resposta direta. Estou tentando fornecer um gráfico para a EDA e estou procurando um bom padrão geral (e se as outras opções são úteis o suficiente para aparecer).
xan
Gostaria de sugerir que você controle as parcelas de acordo com seus objetivos, em vez de aceitar algum padrão.
whuber
Eu sugeriria que sua versão de "áreas ponderadas" era "Bom para comparar subgrupos de uma população", pois pode fazer sentido adicionar larguras para obter a forma de toda a população.
Henry
Eu prefiro áreas iguais, para preservar o impacto visual da forma das distribuições. Em seguida, complete o gráfico com termômetros mostrando os tamanhos das amostras ou use apenas representações de texto dos tamanhos das amostras ao lado dos violinos.
Frank Harrell

Respostas:

4

Gráficos de caixa são usados ​​para resumos esquemáticos de uma distribuição. As plotagens de violino são apenas caixas em que as caixas Q1, Q2 e Q3 são substituídas por uma ampla variedade de quantis. Por esse motivo, acho que a prática aceita é usar largura uniforme entre os grupos.

No entanto, você menciona um bom ponto: como as densidades entre os grupos devem ser comparadas? A resposta depende se você está olhando para cada grupo como sua própria população ou como subpopulações.

ΣEuPEu=1

Rick
fonte
As parcelas de violino foram originalmente introduzidas e definidas como parcelas híbridas e traços de densidade. Um rápido Google mostra que, na prática, muitas parcelas tornadas públicas como parcelas de violino omitem a caixa e muitas não mostram quantis como tais. Portanto, as definições estão abertas aqui.
Nick Cox
5

Honestamente, acho que você está se aproximando da direção errada. Todos os três gráficos informam claramente as informações com valor - caso contrário, você não consideraria qual gráfico usar. A análise exploratória de dados é sobre como entender seus dados. Onde está de acordo com a expectativa. Onde isso não acontece. Como é formado em várias variáveis.

O objetivo principal da EDA é avaliar se nossos padrões, sejam eles pressupostos de distribuição ou colinearidade, o modelo estatístico que seria usado etc. são bem justificados. Como tal, o conceito de uma EDA "padrão" é um tanto falho.

Veja todos eles - ou pelo menos todos os gráficos relacionados à pergunta que você pretende fazer. Não há razão para se intrometer em "O que é interessante" e "O que vou ignorar" no estágio da EDA. E se estamos apenas alimentando os dados por padrão, não é realmente EDA em primeiro lugar.

Fomite
fonte
+1 para esclarecer observações sobre EDA, embora ainda não está claro (para mim) se o OP é depois EDA ou não ...
chl
@chl Alguns comentários do OP sugerem que é isso que ele procura. Se é apenas "qual deles é mais útil", a resposta que eu receio se torna ainda mais ambígua "bem, o que você quer mostrar?"
Fomite
Ah, eu perdi esse comentário ... Portanto, sua resposta vale +1 novamente, mas não posso :(
chl
4

E a largura de banda? Você pensou sobre isso?

Se você usar as configurações padrão do seu software para obter o pdf, provavelmente usará a regra geral para obter a largura de banda ideal de um kernel gaussiano. Essa 'largura de banda ideal' pode diferir para cada subconjunto. Agora pergunte a si mesmo: as formas ainda são comparáveis? Pode ser que alguém tente medir a mesma variável (estimativa de densidade do kernel) com padrões duplos.

Para a estimativa da densidade do kernel, regras claras foram desenvolvidas para obter a largura de banda correta (algum tipo de validação cruzada), mas para as plotagens de violino, elas são na maioria ignoradas. Pode ser importante quando os tamanhos das amostras diferem bastante.

Estou tendo esse problema agora. O que você acha disso? Como você resolve isso? Quaisquer comentários são muito apreciados.

Holger Hoffmann
fonte