Conjuntos de dados do tipo Anscombe com a mesma caixa e gráfico de bigodes (média / padrão / mediana / MAD / min / max)

21

EDIT: Como esta pergunta foi inflada, um resumo: encontrando diferentes conjuntos de dados significativos e interpretáveis ​​com as mesmas estatísticas mistas (média, mediana, faixa intermediária e suas dispersões associadas e regressão).

O quarteto de Anscombe (consulte Objetivo da visualização de dados de alta dimensão? ) É um exemplo famoso de quatro conjuntos de dados - , com a mesma média marginal / desvio padrão (nos quatro quatro , separadamente) e o mesmo ajuste linear do OLS , regressão e soma dos quadrados residuais e coeficiente de correlação . As estatísticas do tipo (marginal e conjunta) são, portanto, as mesmas, enquanto os conjuntos de dados são bem diferentes.xyxyR22

Quarteto de Anscombe

EDIT (dos comentários do OP) Deixando de lado o pequeno tamanho do conjunto de dados, deixe-me propor algumas interpretações. O conjunto 1 pode ser visto como um relacionamento linear padrão (afim, correto) com o ruído distribuído. O conjunto 2 mostra um relacionamento limpo que pode ser o ápice de um ajuste de alto grau. O conjunto 3 mostra uma dependência estatística linear clara com um outlier. O conjunto 4 é mais complicado: a tentativa de "prever" de parece estar fadada ao fracasso. O design de pode revelar um fenômeno de histerese com uma faixa insuficiente de valores, um efeito de quantização (o pode ser quantificado demais) ou o usuário alterou as variáveis ​​dependentes e independentes.yxxx

Portanto, os recursos de resumo ocultam comportamentos muito diferentes. O conjunto 2 poderia ser melhor tratado com um ajuste polinomial. Definir 3 com métodos outlier-resistente ( ou similares), bem como Set 4. maravilha se poderia se outras funções de custo ou indicadores discrepância poderia resolver, ou pelo menos melhorar o conjunto de dados discriminação. EDIT (dos comentários do OP): a postagem de blog Regressões Curiosas afirma que:21

Aliás, me disseram que Frank Anscombe nunca revelou como ele criou esses conjuntos de dados. Se você acha que é uma tarefa fácil obter todas as estatísticas de resumo e os resultados da regressão da mesma forma, tente!

Nos conjuntos de dados construídos para um propósito semelhante ao do quarteto de Anscombe , vários conjuntos de dados interessantes são fornecidos, por exemplo, com os mesmos histogramas baseados em quantis. Não vi uma mistura de relacionamento significativo e estatísticas mistas.

Minha pergunta é: existem conjuntos de dados bivariados (ou triviais, para manter a visualização) semelhantes a Anscombe, que, além de ter as mesmas estatísticas do tipo2 :

  • seus gráficos são interpretáveis ​​como uma relação entre e , como se alguém estivesse procurando uma lei entre medidas,xy
  • eles possuem o mesmo (mais robusto)1 propriedades marginais (mesma mediana e mediana de desvio absoluto),
  • eles têm as mesmas caixas delimitadoras: mesmo min, max (e, portanto, tipo e estatísticas intermediárias e intermediárias).

Esses conjuntos de dados teriam os mesmos resumos de plotagem "caixa e bigodes" (com mín., Máx., Mediana, desvio absoluto médio / MAD, média e padrão) em cada variável e ainda seriam bastante diferentes na interpretação.

Seria ainda mais interessante se alguma regressão menos absoluta fosse a mesma para os conjuntos de dados (mas talvez eu já esteja pedindo demais). Eles poderiam servir de advertência ao falar sobre regressão robusta versus não robusta e ajudar a lembrar a citação de Richard Hamming:

O objetivo da computação é insight, não números

EDIT (dos comentários do OP) Questões semelhantes são tratadas em Gerando dados com estatísticas idênticas, mas Gráficos diferentes , Sangit Chatterjee e Aykut Firata, The American Statistician, 2007 ou Dados de clonagem: gerando conjuntos de dados com exatamente o mesmo ajuste de regressão linear múltipla, J. Aust. N.-Z. Stat. J. 2009.

Em Chatterjee (2007), o objetivo é gerar novos (x,y)pares com as mesmas médias e desvios padrão do conjunto de dados inicial, maximizando diferentes funções objetivas de "discrepância / dissimilaridade". Como essas funções podem ser não convexas ou não diferenciáveis, elas usam algoritmos genéticos (GA). Etapas importantes consistem na orto-normalização, que é muito consistente com a preservação da média e da (unidade) variância. As figuras do papel (metade do conteúdo do papel) sobrepõem os dados de entrada e de saída do GA. Minha opinião é que as saídas do GA perdem muito da interpretação intuitiva original.

E tecnicamente, nem a mediana nem a faixa média são preservadas, e o artigo não menciona procedimentos de renormalização que preservariam 2, 1 e Estatísticas.

Laurent Duval
fonte
3
If you're just after univariate data sets with the same boxplots, I gave a set in an answer to a question a while back, based on the development in a paper. Hold on, I'll dig it out. (edit) ... here. It's easy to make more data sets with the same properties... I address that in another answer, here.
Glen_b -Reinstala Monica
2
However, on reflection, I suppose now that you're not after univariate data sets with the same boxplots, but instead seek bivariate data sets whose x's and y's all have the same set of two boxplots, and which have the same least squares line -- is that right?
Glen_b -Reinstate Monica
The digging was useful to me, especially on the skewness part. Yet I am indeed looking at more "natural" looking bivariate (or more) plots, with dependencies between x and y. A similar "robust" fit would be a plus. I have edited and hopefully clarified the question
Laurent Duval
3
Chatterjee & Firat ( The American Statistician , 2007) , vinculado nesta resposta a esta pergunta , fornece um algoritmo genético bastante geral que você deve poder adaptar de maneira direta aos seus objetivos.
S. Kolassa - Restabelece Monica
1
Os gráficos são exemplos de momentos populacionais sem sentido quando momentos de distribuição são ignorados. Média, desvio padrão, assimetria e outros momentos da população não correspondem aos valores esperados, desvios padrão, assimetria e outros momentos das distribuições que melhor descrevem essas populações. Quando os gráficos acima são vistos como distribuições de valores x e valores y, todos são diferentes e, portanto, têm momentos de distribuição diferentes. Pior ainda é que, ignorando apenas a estrutura residual, que talvez fosse o ponto, não se pode ignorar nenhum deles com impunidade.
24416 Carl

Respostas:

1

Para ser concreto, estou considerando o problema de criar dois conjuntos de dados, cada um dos quais sugere um relacionamento, mas o relacionamento de cada um é diferente e, no entanto, tem aproximadamente o mesmo:

  • significa x
  • quer dizer y
  • SD x
  • SD y
  • mediana x
  • mediana y
  • mínimo x
  • y mínimo
  • máximo x
  • y máximo
  • desvio absoluto médio da mediana de x
  • desvio absoluto médio da mediana de y
  • coeficientes da regressão linear simples de y em x

Talvez isso seja trapaça, mas uma maneira de facilitar esse problema é usar um conjunto de dados em que a linha que melhor se ajusta é o eixo x ,significary=0 0e miny=-maxy. Em seguida, podemos apenas virar os dados verticalmente para obter algo sugestivo de uma distribuição claramente distinta, mas onde todas as estatísticas acima são preservadas.

Considere, por exemplo,

x0 019293949596979891y-1-120 01211120 0-12-1

que tem um gráfico em forma de V para cima como este:

gráfico

Substituir y com -y e você obtém um V descendente com todas as mesmas estatísticas, e não apenas aproximadamente, mas exatamente.

Kodiologista
fonte
Nice contribution. Indeed, I fell the horizontal line is a bit of cheating wrt OLS. The flipping is a good idea, yet if the datasets are different, they remain similar. But I think you have a good idea, perhaps an "N" shape and a "W" shape in the same fashion could be the start of a path
Laurent Duval