Qual é a melhor maneira de visualizar o relacionamento entre variáveis ​​discretas e contínuas?

19

Qual é a melhor maneira de mostrar um relacionamento entre:

  • variável contínua e discreta,
  • duas variáveis ​​discretas?

Até agora, usei gráficos de dispersão para examinar a relação entre variáveis ​​contínuas. No entanto, no caso de variáveis ​​discretas, os pontos de dados são acumulados em determinados intervalos. Assim, a linha de melhor ajuste pode ser tendenciosa.

principiante
fonte
4
Para o caso discreto-discreto, esta resposta a uma pergunta um tanto relacionada aqui , na plotagem de dados categóricos ordenados, pode ajudar (embora possivelmente sem as caixas no seu caso). Eu realmente não tenho certeza de como você acha que esse 'viés' surge; isso afetaria a impressão visual dos pontos de dados (levando a expectativa de que a linha fosse para outro lugar que não deveria onde deveria), mas não os dados reais. Você pode explicar seu raciocínio aqui?
Glen_b -Reinstala Monica

Respostas:

26

Abaixo: O gráfico original pode ser enganoso, porque a natureza discreta das variáveis ​​faz com que os pontos se sobreponham:

insira a descrição da imagem aqui

Uma maneira de contornar isso é introduzir alguma transparência no símbolo de dados:

insira a descrição da imagem aqui

Outra maneira é deslocar suavemente a localização do símbolo para criar uma mancha. Essa técnica é chamada "tremulação:"

insira a descrição da imagem aqui

As duas soluções ainda permitirão que você ajuste uma linha reta para avaliar a linearidade.

Código R para sua referência:

x <- trunc(runif(200)*10)
y <- x * 2 + trunc(runif(200)*10)
plot(x,y,pch=16)
plot(x,y,col="#00000020",pch=16)
plot(jitter(x),jitter(y),col="#000000",pch=16)
Penguin_Knight
fonte
1
Boa resposta. Que tal um gráfico de dispersão de bolhas com contagem de instâncias variáveis? Tentei usar essas técnicas em um conjunto de dados massivo e tudo levou muito tempo para renderizar os alfas.
josh
14

Eu usaria boxplots para exibir o relacionamento entre uma variável discreta e uma variável contínua. Você pode fazer seus boxplots verticais ou horizontais com o software estatístico padrão, para facilitar a visualização como IV ou DV. Ele é possível usar um gráfico de dispersão com uma variável discreta e contínua, apenas atribuir um número à variável discreta (por exemplo, 1 e 2), e jitter esses valores (topo da trama nota sobre direito aqui ).

Em relação ao seu comentário de que a linha de melhor ajuste pode ser tendenciosa, depende do que você tem. Por exemplo, se você tiver uma variável discreta com dois níveis como seu IV e uma variável contínua como seu DV, poderá desenhar uma linha através dos dois meios e isso não será tendencioso. (Normalmente, consideraríamos essa situação apropriada para um teste t, mas na verdade é uma forma - ou seja, caso simples - de regressão, veja minha resposta aqui .) Por outro lado, se você tiver um variável com dois níveis como seu DV, a regressão padrão (OLS) seria inapropriada (a regressão logística seria necessária) e a linha de melhor ajuste seria enviesada, mas você poderia ajustar (& plotar) uma linha de baixa como parte de sua inicial exploração de dados.

Para visualizar o relacionamento entre duas variáveis ​​discretas, eu usaria um gráfico em mosaico . Você também pode usar um gráfico de peneira , um gráfico de associação ou um gráfico de pressão dinâmica com alguma programação.

- Reinstate Monica
fonte
8

Quando se considera a relação entre uma variável de saída binário e um preditor contínua, I utilizado o mais suave loess (outlier com detecção de desligado, por exemplo, em R lowess(x, y, iter=0).

Na próxima versão do Hmiscpacote R , você pode criar facilmente um único latticegráfico que coloca essas curvas em uma tela de vários painéis para vários preditores, por exemplo

summaryRc(heart.attack ~ age + blood.pressure + weight, data=mydata)
Frank Harrell
fonte
1

Se você não estiver satisfeito com gráficos de dispersão simples, poderá adicionar as frequências dos pontos de dados em cada valor da variável discreta. Como fazer isso, depende apenas do programa estatístico que você está usando. Aqui está um exemplo para Stata. Você também pode aplicar isso ao gráfico de dispersão de duas variáveis ​​categóricas. Caso contrário, um gráfico de caixa ou gráficos de barras sobrepostos pode ser bom, mas isso realmente depende de como você deseja apresentar essas variáveis.

Andy
fonte
1

Encontrei um artigo aplicável à associação entre duas variáveis ​​binárias em http://www.boekboek.com/xb130929113026 - aqui, nesse artigo, é mostrado e provado que a força de associação entre duas variáveis ​​binárias pode ser expressa como uma fração de associação perfeita. Portanto, torna-se possível e preferível afirmar: a associação entre a variável A e a variável B é, por exemplo, 50%, em vez da afirmação contemporânea: OR = 9 (não é fácil de interpretar) ou risco real = 2 (contemporâneo, o risco relativo é considerado ser também uma medida de associação, embora de fato seja uma função de associação, prevalência ou incidência e positividade).

Erik
fonte