Como interpreto esse gráfico de dispersão?

12

Eu tenho um gráfico de dispersão que tem um tamanho de amostra igual ao número de pessoas no eixo xe salário médio no eixo y, estou tentando descobrir se o tamanho da amostra tem algum efeito no salário médio.

Este é o enredo:

insira a descrição da imagem aqui

Como interpreto esse enredo?

Sameed
fonte
3
Se puder, sugiro trabalhar com uma transformação de ambas as variáveis. Se nenhuma variável tiver zeros exatos, dê uma olhada na escala de log-log
Glen_b -Reinstate Monica
@ Glen_b desculpe, eu não estou familiarizado com os termos que você declarou, apenas olhando para o gráfico, você pode fazer uma relação entre as duas variáveis? o que posso supor é que, para o tamanho da amostra até 1000, não há relação, pois para os mesmos valores de tamanho da amostra existem vários valores medianos. Para valores maiores que 1000, o salário médio parece diminuir. O que você acha ?
Sameed
Não vejo evidência clara disso, parece-me bastante plano; se houver mudanças claras, provavelmente está acontecendo na parte inferior do tamanho da amostra. Você tem os dados ou apenas a imagem da trama?
Glen_b -Reinstate Monica
4
Se você vê a mediana como a mediana de n variáveis ​​aleatórias, faz sentido que a variação da mediana diminua à medida que o tamanho da amostra aumenta. Isso explicaria a grande expansão no lado esquerdo da trama.
JAD 5/09
2
Sua declaração "para tamanho de amostra até 1000 não existe relação, pois para os mesmos valores de tamanho de amostra existem vários valores medianos" está incorreta.
Peter Flom - Restabelece Monica

Respostas:

9

"Descobrir" indica que você está explorando os dados. Testes formais seriam supérfluos e suspeitos. Em vez disso, aplique técnicas padrão de análise exploratória de dados (EDA) para revelar o que pode estar nos dados.

Essas técnicas padrão incluem reexpressão , análise residual , técnicas robustas (os "três R's" da EDA) e suavização dos dados, conforme descrito por John Tukey em seu livro clássico EDA (1977). Como conduzir algumas delas são descritas em meu post na Box-Cox como transformação para variáveis ​​independentes? e Na regressão linear, quando é apropriado usar o log de uma variável independente em vez dos valores reais? , inter alia .

O resultado é que muito pode ser visto mudando para eixos de log-log (re-expressando efetivamente ambas as variáveis), suavizando os dados de maneira não muito agressiva e examinando os resíduos do smooth para verificar o que ele pode ter perdido, como ilustrarei.

Aqui estão os dados mostrados com uma suavidade que - após examinar várias suavizações com graus variados de fidelidade aos dados - parece um bom compromisso entre muita e pouca suavização. Ele usa Loess, um método robusto bem conhecido (não é fortemente influenciado por pontos periféricos na vertical).

Gráfico de dispersão de log-log

A grade vertical está em etapas de 10.000. O bom faz sugerir alguma variação Grad_mediancom o tamanho da amostra: parece cair como tamanhos de amostra aproximar 1000. (As extremidades do lisa, não são confiáveis - especialmente para pequenas amostras, onde se espera que o erro de amostragem ser relativamente grande - assim don leia muito sobre eles.) Essa impressão de uma queda real é suportada pelas faixas de confiança (muito grosseiras) desenhadas pelo software em torno do suave: suas "manobras" são maiores que as larguras das bandas.

-0,220%

Estamos interessados ​​em (a) se há padrões adicionais de variação conforme o tamanho da amostra muda e (b) se as distribuições condicionais da resposta - as distribuições verticais das posições dos pontos - são plausivelmente semelhantes em todos os valores do tamanho da amostra, ou se algum aspecto deles (como propagação ou simetria) pode mudar.

! [Figura 2 Gráfico de resíduos

0,0

Consequentemente, este simples resumo:

salário médio é cerca de 10.000 mais baixo para amostras perto de 1000

captura adequadamente os relacionamentos que aparecem nos dados e parece manter-se uniformemente em todas as principais categorias. Se isso é significativo - isto é, se ele resistiria quando confrontado com dados adicionais - só pode ser avaliado coletando esses dados adicionais.


Para quem gostaria de verificar este trabalho ou levá-lo adiante, aqui está o Rcódigo.

library(data.table)
library(ggplot2)
#
# Read the data.
#
infile <- "https://raw.githubusercontent.com/fivethirtyeight/\
data/master/college-majors/grad-students.csv"
X <- as.data.table(read.csv(infile))
#
# Compute the residuals.
#
span <- 0.6 # Larger values will smooth more aggressively
X[, Log.residual := 
      residuals(loess(log(Grad_median) ~ I(log(Grad_sample_size)), X, span=span))]
#
# Plot the data on top of a smooth.
#
g <- ggplot(X, aes(Grad_sample_size, Grad_median)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + scale_y_log10(minor_breaks=seq(1e4, 5e5, by=1e4)) + 
  ggtitle("EDA of Median Salary vs. Sample Size",
          paste("Span of smooth is", signif(span, 2)))
print(g)

span <- span * 2/3 # Look for a little more detail in the residuals
g.r <- ggplot(X, aes(Grad_sample_size, Log.residual)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + 
  ggtitle("EDA of Median Salary vs. Sample Size: Residuals",
          paste("Span of smooth is", signif(span, 2)))
print(g.r)
whuber
fonte
7

Glen_b está sugerindo que você use o logaritmo de sample_size e o salário médio para ver se faz o reescalonamento dos dados.

Não sei se concordo com sua crença de que o salário médio diminui quando o tamanho da amostra ultrapassa 1.000. Eu estaria mais inclinado a dizer que não há nenhum relacionamento. Sua teoria prevê que deve haver um relacionamento?

Outra maneira de avaliar um possível relacionamento é ajustar uma linha de regressão aos dados. Como alternativa, você também pode usar uma curva lowess. Plote as duas linhas nos seus dados e veja se algo pode ser provocado (duvido que exista algo excessivamente substantivo).

ZAP
fonte
3
O gráfico de dispersão é muito semelhante a um gráfico de funil usado nas metanálises. Veja um exemplo semelhante . A plotagem das bandas do funil mostrará mais claramente se existe algum relacionamento; pode haver um pouco positivo neste exemplo.
Andy W
6

Eu também concordo que não há relacionamento. Reproduzi seu gráfico de dispersão original (à esquerda) e fiz o gráfico de dispersão de log-log sugerido por glen_b (à direita).

insira a descrição da imagem aqui

Parece que também não há relação. A correlação entre os dados transformados por log é fraca (Pearson R = -13) e insignificante (p = 0,09). Dependendo da quantidade de informações extras que você tiver, talvez haja um motivo para ver alguma correlação negativa fraca, mas isso parece um exagero. Eu acho que qualquer padrão aparente que você está vendo é o mesmo efeito visto aqui .

R=0,0022p=0,98

R Greg Stacey
fonte
Obrigado por examinar a correlação entre grad-mediana e grad-sample-size; Fiquei profundamente intrigado com a diferença entre os números!
famargar
0

Tentar uma regressão linear ensinará algo sobre essa relação, conforme sugerido na primeira resposta. Como parece que você está usando python mais matplotlib para esse gráfico, você está a uma linha de código da solução.

Você pode usar o gráfico de juntas marítimas, que também exibirá a linha de regressão linear, o coeficiente de correlação de Pearson e seu valor-p:

sns.jointplot("Grad_sample_size", "Grad_median", data=df, kind="reg")

insira a descrição da imagem aqui

como você pode ver, não há correlação. Olhando para este último gráfico, parece que transformar a variável x em log seria útil. Vamos tentar:

df['log_size'] = np.log(df['Grad_sample_size'])
sns.jointplot("log_size", "Grad_median", data=df, kind="reg")

insira a descrição da imagem aqui

Você pode ver claramente que - transformação de log ou não - a correlação é pequena, e o valor de p e os intervalos de confiança dizem que não é estatisticamente significativa.

famargar
fonte
3
As indicações de distribuições condicionais fortemente distorcidas sugerem que essa não é uma boa abordagem. Quando você também observar que a assimetria da distribuição do tamanho da amostra fará com que os poucos tamanhos maiores controlem a aparência de uma tendência na regressão, você verá por que outras pessoas estão recomendando transformações preliminares dos dados.
whuber
1
Não estou supondo ou especulando: o enredo da pergunta mostra claramente essas características. Veja também os gráficos criados por R Greg Stacey , que - aplicando as transformações de log-log sugeridas - demonstra o que eles realizam.
whuber
Acabei de encontrar os dados e fiz o estudo pessoalmente - consulte a resposta atualizada.
famargar
Seu estudo sucumbiu aos dois problemas que observei: o aparecimento de "sem correlação" deriva em grande parte das respostas condicionais distorcidas e da alavancagem para os altos valores do regressor. Em particular, nem a linha ajustada nem suas faixas de erro são confiáveis.
whuber
Por favor, veja o enredo que acabei de adicionar; Espero não estar perdendo nada nesta última iteração.
famargar
-1

Esse gráfico funciona como uma demonstração do teorema do limite central, onde a variabilidade entre as amostras diminui à medida que o tamanho da amostra aumenta. É também a forma que você esperaria com uma variável fortemente distorcida como salário.

Barton Poulson
fonte
3
Essas não são amostras independentes de uma população comum. Isso torna a relevância do CLT bastante problemática.
whuber