Alternativa para parcelas de peneira / mosaico para tabelas de contingência

17

Certa vez, deparei com um tipo de gráfico para dados categóricos (ou seja, tabelas de contingência) na internet, o que eu realmente gostei, mas nunca o encontrei novamente e nem sei como se chama. Era essencialmente como um gráfico de peneiras, em que as alturas das linhas e as larguras das colunas eram escaladas em relação às probabilidades marginais. Assim, cada caixa foi dimensionada para a frequência relativa esperada sob independência. No entanto, diferia de um gráfico de peneiras, pois, em vez de traçar hachuras dentro de cada caixa, traçava um ponto (como em um gráfico de dispersão) em um local escolhido aleatoriamente a partir de um uniforme bivariado para cada observação. Dessa maneira, a densidade dos pontos reflete quão bem as contagens observadas correspondem às contadas esperadas. Ou seja, se a densidade fosse semelhante em todas as caixas, o modelo nulo é razoável,i,j ) pode não ser muito provável no modelo nulo. Como os pontos são plotados em vez de hachura cruzada, existe uma correspondência simples e intuitiva entre o elemento plotado e a contagem observada, o que não é necessariamente verdadeiro para plotagens de peneiras (veja abaixo). Além disso, a colocação aleatória dos pontos confere à trama uma sensação 'orgânica'. Além disso, a cor pode ser usada para destacar caixas / células que divergem fortemente do modelo nulo, e uma matriz de plotagem pode ser usada para examinar relações em pares entre muitas variáveis ​​diferentes, para que possa incorporar as vantagens de plotagens semelhantes.

  • Alguém sabe como esse enredo é chamado?
  • Existe um pacote / função que fará isso facilmente no R ou em outro software (por exemplo, Mondrian)? Não consigo encontrar nada parecido no vcd . Claro, poderia ser codificado do zero, mas isso seria uma dor.

Aqui está um exemplo simples de uma plotagem de peneira, observe que é fácil ver como as contagens esperadas para as diferentes categorias devem ser executadas no modelo nulo, mas difícil conciliar a hachura cruzada com os números reais, produzindo uma plotagem que não é bem como fácil de ler e esteticamente horrendo:

    B ~B
 A 38  4
~A  3 19

insira a descrição da imagem aqui
Pelo que vale, um gráfico em mosaico tem o problema oposto: embora seja mais fácil ver quais células têm contagens "demais" ou "poucas" (em relação ao modelo nulo), é mais difícil reconhecer quais são as relações entre as células. contagens esperadas teriam sido. Especificamente, as larguras das colunas são dimensionadas em relação à probabilidade marginal, mas as alturas das linhas não, tornando essa informação quase impossível de extrair.
insira a descrição da imagem aqui
E agora para algo completamente diferente...

  • Alguém sabe de onde vem a convenção de usar azul para "muitos" e vermelho para "poucos"? Isso sempre foi contra-intuitivo para mim. Parece-me que a densidade excepcionalmente alta (ou muitas observações) acompanha o calor , e a baixa densidade acompanha o frio , e que (pelo menos na iluminação do palco) os vermelhos são quentes e os azuis são frios .

Atualização: Se bem me lembro, o enredo que vi estava no pdf de um capítulo (introdução ou ch1) de um livro que foi disponibilizado gratuitamente on-line como um teaser de marketing. Aqui está uma versão aproximada da ideia que eu codifiquei do zero:
insira a descrição da imagem aqui
Mesmo com esta versão bruta, acho que é mais fácil ler do que o gráfico de peneiras e, de certa forma, mais fácil que o gráfico de mosaico (por exemplo, é mais fácil reconhecer quais são os relacionamentos entre as frequências celulares estaria sob independência). Seria bom ter uma função que: a. faria isso automaticamente com qualquer tabela de contingência, b. poderia ser usado como um bloco de construção de uma matriz de plotagem e c. teria os recursos interessantes que acompanham os gráficos acima (como a legenda dos resíduos padronizados no gráfico em mosaico).

- Reinstate Monica
fonte
Então, você quer essencialmente um gráfico de mosaico com um tipo diferente de preenchimento? A Rfunção assocplotchega perto do que você quer dizer? Caso contrário, aposto que um Rprogramador pode modificar isso ou mosaicplotfazer o que quiser.
Peter Flom - Restabelece Monica
1
Referências de interesse relacionadas, Shadings residuais para visualização da independência (condicional) ( Zeileis et al. 2007 ), PDF aqui e outro tópico aqui na visualização de tabelas de contingência com algumas referências. Acredito que o artigo da Zeileis tenha uma boa discussão sobre cores que pode responder à sua última pergunta (pode ser bom ler as referências para ver se elas citam o gráfico de que você está falando também).
Andy W
É o contrário, @ PeterFlom, quero essencialmente uma trama de peneira com um tipo diferente de preenchimento. Como alternativa, você poderia dizer que quero uma plotagem de mosaico em que as caixas exibidas sejam escaladas em relação às frequências esperadas sob independência (e possivelmente também um tipo diferente de preenchimento).
gung - Restabelece Monica
"Alguém sabe de onde vem a convenção de usar azul para 'muitos' e vermelho para 'poucos'? Isso sempre foi contra-intuitivo para mim." Bom ponto. É realmente contra-intuitivo. O espectro da luz passa de azul à esquerda (associado a comprimentos de onda menores) para vermelho à direita (associado a comprimentos de onda maiores). Exibe mosaico parecem inverter esta em sua cabeça ...
landroni
A idéia do diagrama de peneiras é que o número de caixas em cada célula seja proporcional à frequência observada; portanto, a densidade relativa mostra uma frequência maior ou menor que a esperada. Se você não gostar das cores, poderá alterá-las facilmente dos padrões. Se você não gostar da função de sombreamento de peneira padrão, poderá escrever facilmente sua própria, por exemplo, shading.points()para fazer o que quiser, dentro da estrutura de strucplot que foi citada acima e está disponível como uma vinheta no vcdpacote.
user101089

Respostas:

15

O livro que você descreveu soa como 'Visualizando dados categóricos', Michael Friendly. O gráfico descrito no 1º capítulo que parece corresponder à sua solicitação foi descrito como um tipo de modelo conceitual para visualização de dados da tabela de contingência (descrito livremente pelo autor como um modelo de pressão dinâmica com densidade observacional) e pode ser visto na visualização do google para Ch 1. O livro é voltado para usuários do SAS.

Um artigo sobre o tópico é referenciado aqui: www.datavis.ca/papers/koln/kolnpapr.pdf

'Modelos conceituais para visualizar dados da tabela de contingência', Michael Friendly.

http://i47.tinypic.com/148n5n7.jpg

insira a descrição da imagem aqui

* aliás, o autor também está listado como um dos autores do pacote vcd (como foi especificamente inspirado no livro mencionado acima) - talvez você possa perguntar diretamente se há uma modificação simples em uma das funções internas que não é facilmente aparente.

** O esquema de coloração parece relacionar a cor azul com desvios positivos da independência e vermelho para desvios negativos. Embora o esquema vermelho faça sentido nesse contexto, talvez fosse mais adequado usar o verde para representar desvios positivos.

http://www.datavis.ca/papers/asa92.html

tapinha
fonte
2
Bom trabalho, o mistério está resolvido! Preciso realmente comprar o livro, em vez de visualizá-lo em vários bits e fazer com que minha biblioteca me envie capítulos de vez em quando. Na IMO, essa forma de visualização me lembra muito o que os cartógrafos chamam de "mapas de pontos", e pode-se utilizar a literatura a partir daí para justificar como os pontos são uma ferramenta de visualização melhor do que as linhas e hachuras. Também é uma boa literatura em termos de posicionamentos preferenciais dos pontos.
Andy W
Isso me dá um bom começo. Obrigado pela ajuda.
gung - Restabelece Monica
1

Talvez não seja o que você viu, mas para a visualização de partidas esperadas sob parcelas de correspondência de independência estão bem motivadas.

http://www.jstatsoft.org/v20/i03/

(Além disso, o livro de SAS e M Friendly estava errado sobre o ajuste recomendado e muitas das parcelas tinham artefatos e isso pode ter desviado o valor percebido.)

phaneron
fonte
Obrigado por sua ajuda, eu gosto de gráficos de correspondência. Você pode dizer mais sobre esse ajuste recomendado que foi enganado? Que ajuste foi esse? Como foi impreciso? E o que havia de errado com as tramas?
gung - Restabelece Monica