Certa vez, deparei com um tipo de gráfico para dados categóricos (ou seja, tabelas de contingência) na internet, o que eu realmente gostei, mas nunca o encontrei novamente e nem sei como se chama. Era essencialmente como um gráfico de peneiras, em que as alturas das linhas e as larguras das colunas eram escaladas em relação às probabilidades marginais. Assim, cada caixa foi dimensionada para a frequência relativa esperada sob independência. No entanto, diferia de um gráfico de peneiras, pois, em vez de traçar hachuras dentro de cada caixa, traçava um ponto (como em um gráfico de dispersão) em um local escolhido aleatoriamente a partir de um uniforme bivariado para cada observação. Dessa maneira, a densidade dos pontos reflete quão bem as contagens observadas correspondem às contadas esperadas. Ou seja, se a densidade fosse semelhante em todas as caixas, o modelo nulo é razoável, ) pode não ser muito provável no modelo nulo. Como os pontos são plotados em vez de hachura cruzada, existe uma correspondência simples e intuitiva entre o elemento plotado e a contagem observada, o que não é necessariamente verdadeiro para plotagens de peneiras (veja abaixo). Além disso, a colocação aleatória dos pontos confere à trama uma sensação 'orgânica'. Além disso, a cor pode ser usada para destacar caixas / células que divergem fortemente do modelo nulo, e uma matriz de plotagem pode ser usada para examinar relações em pares entre muitas variáveis diferentes, para que possa incorporar as vantagens de plotagens semelhantes.
- Alguém sabe como esse enredo é chamado?
- Existe um pacote / função que fará isso facilmente no R ou em outro software (por exemplo, Mondrian)? Não consigo encontrar nada parecido no vcd . Claro, poderia ser codificado do zero, mas isso seria uma dor.
Aqui está um exemplo simples de uma plotagem de peneira, observe que é fácil ver como as contagens esperadas para as diferentes categorias devem ser executadas no modelo nulo, mas difícil conciliar a hachura cruzada com os números reais, produzindo uma plotagem que não é bem como fácil de ler e esteticamente horrendo:
B ~B
A 38 4
~A 3 19
Pelo que vale, um gráfico em mosaico tem o problema oposto: embora seja mais fácil ver quais células têm contagens "demais" ou "poucas" (em relação ao modelo nulo), é mais difícil reconhecer quais são as relações entre as células. contagens esperadas teriam sido. Especificamente, as larguras das colunas são dimensionadas em relação à probabilidade marginal, mas as alturas das linhas não, tornando essa informação quase impossível de extrair.
E agora para algo completamente diferente...
- Alguém sabe de onde vem a convenção de usar azul para "muitos" e vermelho para "poucos"? Isso sempre foi contra-intuitivo para mim. Parece-me que a densidade excepcionalmente alta (ou muitas observações) acompanha o calor , e a baixa densidade acompanha o frio , e que (pelo menos na iluminação do palco) os vermelhos são quentes e os azuis são frios .
Atualização: Se bem me lembro, o enredo que vi estava no pdf de um capítulo (introdução ou ch1) de um livro que foi disponibilizado gratuitamente on-line como um teaser de marketing. Aqui está uma versão aproximada da ideia que eu codifiquei do zero:
Mesmo com esta versão bruta, acho que é mais fácil ler do que o gráfico de peneiras e, de certa forma, mais fácil que o gráfico de mosaico (por exemplo, é mais fácil reconhecer quais são os relacionamentos entre as frequências celulares estaria sob independência). Seria bom ter uma função que: a. faria isso automaticamente com qualquer tabela de contingência, b. poderia ser usado como um bloco de construção de uma matriz de plotagem e c. teria os recursos interessantes que acompanham os gráficos acima (como a legenda dos resíduos padronizados no gráfico em mosaico).
fonte
R
funçãoassocplot
chega perto do que você quer dizer? Caso contrário, aposto que umR
programador pode modificar isso oumosaicplot
fazer o que quiser.shading.points()
para fazer o que quiser, dentro da estrutura de strucplot que foi citada acima e está disponível como uma vinheta novcd
pacote.Respostas:
O livro que você descreveu soa como 'Visualizando dados categóricos', Michael Friendly. O gráfico descrito no 1º capítulo que parece corresponder à sua solicitação foi descrito como um tipo de modelo conceitual para visualização de dados da tabela de contingência (descrito livremente pelo autor como um modelo de pressão dinâmica com densidade observacional) e pode ser visto na visualização do google para Ch 1. O livro é voltado para usuários do SAS.
Um artigo sobre o tópico é referenciado aqui: www.datavis.ca/papers/koln/kolnpapr.pdf
'Modelos conceituais para visualizar dados da tabela de contingência', Michael Friendly.
* aliás, o autor também está listado como um dos autores do pacote vcd (como foi especificamente inspirado no livro mencionado acima) - talvez você possa perguntar diretamente se há uma modificação simples em uma das funções internas que não é facilmente aparente.
** O esquema de coloração parece relacionar a cor azul com desvios positivos da independência e vermelho para desvios negativos. Embora o esquema vermelho faça sentido nesse contexto, talvez fosse mais adequado usar o verde para representar desvios positivos.
http://www.datavis.ca/papers/asa92.html
fonte
Talvez não seja o que você viu, mas para a visualização de partidas esperadas sob parcelas de correspondência de independência estão bem motivadas.
http://www.jstatsoft.org/v20/i03/
(Além disso, o livro de SAS e M Friendly estava errado sobre o ajuste recomendado e muitas das parcelas tinham artefatos e isso pode ter desviado o valor percebido.)
fonte