Estou tentando desenhar gráficos de violino e me perguntando se existe uma prática recomendada para escalá-los entre os grupos. Aqui estão três opções que tentei usar o mtcars
conjunto de dados R (Motor Trend Cars de 1973, encontrado aqui ).
Larguras iguais
Parece ser o que o papel original * faz e o que R vioplot
faz ( exemplo ). Bom para comparar a forma.
Áreas Iguais
Parece certo, pois cada gráfico é um gráfico de probabilidade e, portanto, a área de cada um deve ser igual a 1,0 em algum espaço de coordenadas. Bom para comparar a densidade dentro de cada grupo, mas parece mais apropriado se as parcelas forem sobrepostas.
Áreas Ponderadas
Como área igual, mas ponderada pelo número de observações. O 6 cilindros fica relativamente mais fino, pois há menos desses carros. Bom para comparar densidade entre grupos.
* Gráficos de violino: uma sinergia de traço de densidade de plotagem de caixa (DOI: 10.2307 / 2685478)
Respostas:
Gráficos de caixa são usados para resumos esquemáticos de uma distribuição. As plotagens de violino são apenas caixas em que as caixas Q1, Q2 e Q3 são substituídas por uma ampla variedade de quantis. Por esse motivo, acho que a prática aceita é usar largura uniforme entre os grupos.
No entanto, você menciona um bom ponto: como as densidades entre os grupos devem ser comparadas? A resposta depende se você está olhando para cada grupo como sua própria população ou como subpopulações.
fonte
Honestamente, acho que você está se aproximando da direção errada. Todos os três gráficos informam claramente as informações com valor - caso contrário, você não consideraria qual gráfico usar. A análise exploratória de dados é sobre como entender seus dados. Onde está de acordo com a expectativa. Onde isso não acontece. Como é formado em várias variáveis.
O objetivo principal da EDA é avaliar se nossos padrões, sejam eles pressupostos de distribuição ou colinearidade, o modelo estatístico que seria usado etc. são bem justificados. Como tal, o conceito de uma EDA "padrão" é um tanto falho.
Veja todos eles - ou pelo menos todos os gráficos relacionados à pergunta que você pretende fazer. Não há razão para se intrometer em "O que é interessante" e "O que vou ignorar" no estágio da EDA. E se estamos apenas alimentando os dados por padrão, não é realmente EDA em primeiro lugar.
fonte
E a largura de banda? Você pensou sobre isso?
Se você usar as configurações padrão do seu software para obter o pdf, provavelmente usará a regra geral para obter a largura de banda ideal de um kernel gaussiano. Essa 'largura de banda ideal' pode diferir para cada subconjunto. Agora pergunte a si mesmo: as formas ainda são comparáveis? Pode ser que alguém tente medir a mesma variável (estimativa de densidade do kernel) com padrões duplos.
Para a estimativa da densidade do kernel, regras claras foram desenvolvidas para obter a largura de banda correta (algum tipo de validação cruzada), mas para as plotagens de violino, elas são na maioria ignoradas. Pode ser importante quando os tamanhos das amostras diferem bastante.
Estou tendo esse problema agora. O que você acha disso? Como você resolve isso? Quaisquer comentários são muito apreciados.
fonte