EDIT: Como esta pergunta foi inflada, um resumo: encontrando diferentes conjuntos de dados significativos e interpretáveis com as mesmas estatísticas mistas (média, mediana, faixa intermediária e suas dispersões associadas e regressão).
O quarteto de Anscombe (consulte Objetivo da visualização de dados de alta dimensão? ) É um exemplo famoso de quatro conjuntos de dados - , com a mesma média marginal / desvio padrão (nos quatro quatro , separadamente) e o mesmo ajuste linear do OLS , regressão e soma dos quadrados residuais e coeficiente de correlação . As estatísticas do tipo (marginal e conjunta) são, portanto, as mesmas, enquanto os conjuntos de dados são bem diferentes.
EDIT (dos comentários do OP) Deixando de lado o pequeno tamanho do conjunto de dados, deixe-me propor algumas interpretações. O conjunto 1 pode ser visto como um relacionamento linear padrão (afim, correto) com o ruído distribuído. O conjunto 2 mostra um relacionamento limpo que pode ser o ápice de um ajuste de alto grau. O conjunto 3 mostra uma dependência estatística linear clara com um outlier. O conjunto 4 é mais complicado: a tentativa de "prever" de parece estar fadada ao fracasso. O design de pode revelar um fenômeno de histerese com uma faixa insuficiente de valores, um efeito de quantização (o pode ser quantificado demais) ou o usuário alterou as variáveis dependentes e independentes.
Portanto, os recursos de resumo ocultam comportamentos muito diferentes. O conjunto 2 poderia ser melhor tratado com um ajuste polinomial. Definir 3 com métodos outlier-resistente ( ou similares), bem como Set 4. maravilha se poderia se outras funções de custo ou indicadores discrepância poderia resolver, ou pelo menos melhorar o conjunto de dados discriminação. EDIT (dos comentários do OP): a postagem de blog Regressões Curiosas afirma que:
Aliás, me disseram que Frank Anscombe nunca revelou como ele criou esses conjuntos de dados. Se você acha que é uma tarefa fácil obter todas as estatísticas de resumo e os resultados da regressão da mesma forma, tente!
Nos conjuntos de dados construídos para um propósito semelhante ao do quarteto de Anscombe , vários conjuntos de dados interessantes são fornecidos, por exemplo, com os mesmos histogramas baseados em quantis. Não vi uma mistura de relacionamento significativo e estatísticas mistas.
Minha pergunta é: existem conjuntos de dados bivariados (ou triviais, para manter a visualização) semelhantes a Anscombe, que, além de ter as mesmas estatísticas do tipo :
- seus gráficos são interpretáveis como uma relação entre e , como se alguém estivesse procurando uma lei entre medidas,
- eles possuem o mesmo (mais robusto) propriedades marginais (mesma mediana e mediana de desvio absoluto),
- eles têm as mesmas caixas delimitadoras: mesmo min, max (e, portanto, tipo e estatísticas intermediárias e intermediárias).
Esses conjuntos de dados teriam os mesmos resumos de plotagem "caixa e bigodes" (com mín., Máx., Mediana, desvio absoluto médio / MAD, média e padrão) em cada variável e ainda seriam bastante diferentes na interpretação.
Seria ainda mais interessante se alguma regressão menos absoluta fosse a mesma para os conjuntos de dados (mas talvez eu já esteja pedindo demais). Eles poderiam servir de advertência ao falar sobre regressão robusta versus não robusta e ajudar a lembrar a citação de Richard Hamming:
O objetivo da computação é insight, não números
EDIT (dos comentários do OP) Questões semelhantes são tratadas em Gerando dados com estatísticas idênticas, mas Gráficos diferentes , Sangit Chatterjee e Aykut Firata, The American Statistician, 2007 ou Dados de clonagem: gerando conjuntos de dados com exatamente o mesmo ajuste de regressão linear múltipla, J. Aust. N.-Z. Stat. J. 2009.
Em Chatterjee (2007), o objetivo é gerar novos pares com as mesmas médias e desvios padrão do conjunto de dados inicial, maximizando diferentes funções objetivas de "discrepância / dissimilaridade". Como essas funções podem ser não convexas ou não diferenciáveis, elas usam algoritmos genéticos (GA). Etapas importantes consistem na orto-normalização, que é muito consistente com a preservação da média e da (unidade) variância. As figuras do papel (metade do conteúdo do papel) sobrepõem os dados de entrada e de saída do GA. Minha opinião é que as saídas do GA perdem muito da interpretação intuitiva original.
E tecnicamente, nem a mediana nem a faixa média são preservadas, e o artigo não menciona procedimentos de renormalização que preservariam , e Estatísticas.
fonte
Respostas:
Para ser concreto, estou considerando o problema de criar dois conjuntos de dados, cada um dos quais sugere um relacionamento, mas o relacionamento de cada um é diferente e, no entanto, tem aproximadamente o mesmo:
Talvez isso seja trapaça, mas uma maneira de facilitar esse problema é usar um conjunto de dados em que a linha que melhor se ajusta é o eixo x ,significary= 0 e min y= - max y . Em seguida, podemos apenas virar os dados verticalmente para obter algo sugestivo de uma distribuição claramente distinta, mas onde todas as estatísticas acima são preservadas.
Considere, por exemplo,
que tem um gráfico em forma de V para cima como este:
Substituiry com - y e você obtém um V descendente com todas as mesmas estatísticas, e não apenas aproximadamente, mas exatamente.
fonte