Eu tenho um gráfico de dispersão que tem um tamanho de amostra igual ao número de pessoas no eixo xe salário médio no eixo y, estou tentando descobrir se o tamanho da amostra tem algum efeito no salário médio.
Este é o enredo:
Como interpreto esse enredo?
Respostas:
"Descobrir" indica que você está explorando os dados. Testes formais seriam supérfluos e suspeitos. Em vez disso, aplique técnicas padrão de análise exploratória de dados (EDA) para revelar o que pode estar nos dados.
Essas técnicas padrão incluem reexpressão , análise residual , técnicas robustas (os "três R's" da EDA) e suavização dos dados, conforme descrito por John Tukey em seu livro clássico EDA (1977). Como conduzir algumas delas são descritas em meu post na Box-Cox como transformação para variáveis independentes? e Na regressão linear, quando é apropriado usar o log de uma variável independente em vez dos valores reais? , inter alia .
O resultado é que muito pode ser visto mudando para eixos de log-log (re-expressando efetivamente ambas as variáveis), suavizando os dados de maneira não muito agressiva e examinando os resíduos do smooth para verificar o que ele pode ter perdido, como ilustrarei.
Aqui estão os dados mostrados com uma suavidade que - após examinar várias suavizações com graus variados de fidelidade aos dados - parece um bom compromisso entre muita e pouca suavização. Ele usa Loess, um método robusto bem conhecido (não é fortemente influenciado por pontos periféricos na vertical).
A grade vertical está em etapas de 10.000. O bom faz sugerir alguma variação
Grad_median
com o tamanho da amostra: parece cair como tamanhos de amostra aproximar 1000. (As extremidades do lisa, não são confiáveis - especialmente para pequenas amostras, onde se espera que o erro de amostragem ser relativamente grande - assim don leia muito sobre eles.) Essa impressão de uma queda real é suportada pelas faixas de confiança (muito grosseiras) desenhadas pelo software em torno do suave: suas "manobras" são maiores que as larguras das bandas.Estamos interessados em (a) se há padrões adicionais de variação conforme o tamanho da amostra muda e (b) se as distribuições condicionais da resposta - as distribuições verticais das posições dos pontos - são plausivelmente semelhantes em todos os valores do tamanho da amostra, ou se algum aspecto deles (como propagação ou simetria) pode mudar.
Consequentemente, este simples resumo:
captura adequadamente os relacionamentos que aparecem nos dados e parece manter-se uniformemente em todas as principais categorias. Se isso é significativo - isto é, se ele resistiria quando confrontado com dados adicionais - só pode ser avaliado coletando esses dados adicionais.
Para quem gostaria de verificar este trabalho ou levá-lo adiante, aqui está o
R
código.fonte
Glen_b está sugerindo que você use o logaritmo de sample_size e o salário médio para ver se faz o reescalonamento dos dados.
Não sei se concordo com sua crença de que o salário médio diminui quando o tamanho da amostra ultrapassa 1.000. Eu estaria mais inclinado a dizer que não há nenhum relacionamento. Sua teoria prevê que deve haver um relacionamento?
Outra maneira de avaliar um possível relacionamento é ajustar uma linha de regressão aos dados. Como alternativa, você também pode usar uma curva lowess. Plote as duas linhas nos seus dados e veja se algo pode ser provocado (duvido que exista algo excessivamente substantivo).
fonte
Eu também concordo que não há relacionamento. Reproduzi seu gráfico de dispersão original (à esquerda) e fiz o gráfico de dispersão de log-log sugerido por glen_b (à direita).
Parece que também não há relação. A correlação entre os dados transformados por log é fraca (Pearson R = -13) e insignificante (p = 0,09). Dependendo da quantidade de informações extras que você tiver, talvez haja um motivo para ver alguma correlação negativa fraca, mas isso parece um exagero. Eu acho que qualquer padrão aparente que você está vendo é o mesmo efeito visto aqui .
fonte
Tentar uma regressão linear ensinará algo sobre essa relação, conforme sugerido na primeira resposta. Como parece que você está usando python mais matplotlib para esse gráfico, você está a uma linha de código da solução.
Você pode usar o gráfico de juntas marítimas, que também exibirá a linha de regressão linear, o coeficiente de correlação de Pearson e seu valor-p:
como você pode ver, não há correlação. Olhando para este último gráfico, parece que transformar a variável x em log seria útil. Vamos tentar:
Você pode ver claramente que - transformação de log ou não - a correlação é pequena, e o valor de p e os intervalos de confiança dizem que não é estatisticamente significativa.
fonte
Esse gráfico funciona como uma demonstração do teorema do limite central, onde a variabilidade entre as amostras diminui à medida que o tamanho da amostra aumenta. É também a forma que você esperaria com uma variável fortemente distorcida como salário.
fonte