Qual é a melhor maneira de mostrar um relacionamento entre:
- variável contínua e discreta,
- duas variáveis discretas?
Até agora, usei gráficos de dispersão para examinar a relação entre variáveis contínuas. No entanto, no caso de variáveis discretas, os pontos de dados são acumulados em determinados intervalos. Assim, a linha de melhor ajuste pode ser tendenciosa.
data-visualization
categorical-data
random-variable
principiante
fonte
fonte
Respostas:
Abaixo: O gráfico original pode ser enganoso, porque a natureza discreta das variáveis faz com que os pontos se sobreponham:
Uma maneira de contornar isso é introduzir alguma transparência no símbolo de dados:
Outra maneira é deslocar suavemente a localização do símbolo para criar uma mancha. Essa técnica é chamada "tremulação:"
As duas soluções ainda permitirão que você ajuste uma linha reta para avaliar a linearidade.
Código R para sua referência:
fonte
Eu usaria boxplots para exibir o relacionamento entre uma variável discreta e uma variável contínua. Você pode fazer seus boxplots verticais ou horizontais com o software estatístico padrão, para facilitar a visualização como IV ou DV. Ele é possível usar um gráfico de dispersão com uma variável discreta e contínua, apenas atribuir um número à variável discreta (por exemplo, 1 e 2), e jitter esses valores (topo da trama nota sobre direito aqui ).
Em relação ao seu comentário de que a linha de melhor ajuste pode ser tendenciosa, depende do que você tem. Por exemplo, se você tiver uma variável discreta com dois níveis como seu IV e uma variável contínua como seu DV, poderá desenhar uma linha através dos dois meios e isso não será tendencioso. (Normalmente, consideraríamos essa situação apropriada para um teste t, mas na verdade é uma forma - ou seja, caso simples - de regressão, veja minha resposta aqui .) Por outro lado, se você tiver um variável com dois níveis como seu DV, a regressão padrão (OLS) seria inapropriada (a regressão logística seria necessária) e a linha de melhor ajuste seria enviesada, mas você poderia ajustar (& plotar) uma linha de baixa como parte de sua inicial exploração de dados.
Para visualizar o relacionamento entre duas variáveis discretas, eu usaria um gráfico em mosaico . Você também pode usar um gráfico de peneira , um gráfico de associação ou um gráfico de pressão dinâmica com alguma programação.
fonte
Quando se considera a relação entre uma variável de saída binário e um preditor contínua, I utilizado o mais suave loess (outlier com detecção de desligado, por exemplo, em R
lowess(x, y, iter=0)
.Na próxima versão do
Hmisc
pacote R , você pode criar facilmente um únicolattice
gráfico que coloca essas curvas em uma tela de vários painéis para vários preditores, por exemplofonte
Se você não estiver satisfeito com gráficos de dispersão simples, poderá adicionar as frequências dos pontos de dados em cada valor da variável discreta. Como fazer isso, depende apenas do programa estatístico que você está usando. Aqui está um exemplo para Stata. Você também pode aplicar isso ao gráfico de dispersão de duas variáveis categóricas. Caso contrário, um gráfico de caixa ou gráficos de barras sobrepostos pode ser bom, mas isso realmente depende de como você deseja apresentar essas variáveis.
fonte
Encontrei um artigo aplicável à associação entre duas variáveis binárias em http://www.boekboek.com/xb130929113026 - aqui, nesse artigo, é mostrado e provado que a força de associação entre duas variáveis binárias pode ser expressa como uma fração de associação perfeita. Portanto, torna-se possível e preferível afirmar: a associação entre a variável A e a variável B é, por exemplo, 50%, em vez da afirmação contemporânea: OR = 9 (não é fácil de interpretar) ou risco real = 2 (contemporâneo, o risco relativo é considerado ser também uma medida de associação, embora de fato seja uma função de associação, prevalência ou incidência e positividade).
fonte