Medimos duas variáveis, e o gráfico de dispersão parece sugerir vários modelos "lineares". Existe uma maneira de tentar destilar esses modelos? Identificar outras variáveis independentes acabou sendo difícil.
Ambas as variáveis são fortemente inclinadas para a esquerda (em direção aos pequenos números); essa é uma distribuição esperada em nosso domínio. A intensidade do ponto representa a quantidade de pontos de dados (em uma escala ) nessa < x , y > .
Como alternativa, existe uma maneira de agrupar os pontos?
Em nosso campo, afirma-se que essas duas variáveis se correlacionam linearmente. Estamos tentando entender / explicar por que não é o caso em nossos dados.
(observe, temos 17 milhões de pontos de dados)
update: obrigado por todas as respostas, aqui estão alguns esclarecimentos solicitados:
- Ambas as variáveis são apenas números inteiros, o que explica alguns dos padrões no gráfico de dispersão do log.
- Felizmente, por definição, o valor mínimo de ambas as variáveis é 1.
- 7M pontos estão em ("explicado" pela inclinação à esquerda dos dados)
Aqui estão os gráficos solicitados:
gráfico de dispersão de log-log:
(os espaços em branco são causados pelos valores inteiros)
log-log polar:
Histograma da razão:
A frequência é numa escala logarítmica, uma vez que o bar é pontos 7M, e iria esconder as outras barras.
fonte
Respostas:
Um ponto de terminologia: a assimetria nas estatísticas é descrita com referência à cauda mais esticada. Você é livre para considerar essa terminologia como inversa. Aqui, ambas as variáveis são inclinadas para valores altos ou positivamente ou para a direita.
Como antes, eu não recomendaria modelar faixas diferentes de maneira diferente sem uma razão científica para distingui-las ou tratá-las separadamente. Você deve apenas média sobre o que você tem. (Pode haver métodos conhecidos com esse tipo de dados para suprimir a discrição. Se as pessoas em seu campo medem rotineiramente milhões de pontos para cada gráfico, é difícil acreditar que isso não tenha sido visto antes.)
A correlação certamente deve ser positiva. Além de um teste formal de significância, que aqui seria totalmente inútil, pois pequenas correlações serão consideradas significativas com esse tamanho de amostra, se declarado forte é uma questão de expectativas e padrões em seu campo. Comparar quantitativamente sua correlação com os resultados de outras pessoas é um caminho a percorrer.
Detalhe: a assimetria ainda é descrita de maneira errada, de acordo com a convenção estatística. Essas variáveis estão inclinadas à direita; esse jargão se ajusta ao olhar para um histograma com eixo de magnitude horizontal e observar que a assimetria é nomeada para a cauda mais longa, não para a concentração com mais valores.
fonte
fonte
Eu observei um comportamento semelhante em alguns dos meus conjuntos de dados. No meu caso, as várias linhas diferentes foram causadas por erro de quantização em um dos meus algoritmos de processamento.
Ou seja, observamos parcelas dispersas de dados processados e o algoritmo de processamento teve alguns efeitos de quantização, que causaram dependências nos dados que se pareciam exatamente com as que você tem acima.
A correção dos efeitos da quantização fez com que nossa saída parecesse muito mais suave e menos agrupada.
Quanto ao seu comentário de "correlação linear". O que você apresentou é insuficiente para determinar se esses dados estão correlacionados linearmente ou não. Ou seja, em alguns campos, um coeficiente de correlação> 0,7 é considerado forte correlação linear. Dado que a maioria dos seus dados está próxima da origem, é perfeitamente concebível que seus dados sejam linearmente correlacionados em relação ao que a "sabedoria convencional" diria. A correlação diz muito pouco sobre um conjunto de dados.
fonte