Melhor termo para dados inventados?

23

Estou escrevendo um exemplo e inventei alguns dados. Quero que fique claro para o leitor que não se trata de dados reais, mas também não quero dar a impressão de malícia, pois serve apenas como exemplo.

Não existe nenhum componente (pseudo) aleatório para esses dados em particular, então parece-me que 'simulado' não é apropriado. Se eu chamá-lo de fictício ou fabricado, isso dá a impressão de dados fraudulentos ? 'Maquiagem' é uma palavra que se encaixa em um contexto científico?

Qual é a terminologia na literatura estatística para dados inventados não simulados?

Frans Rodenburg
fonte
9
Apenas para adicionar um comentário que se estenda por várias respostas: "sintético" é uma boa palavra para dados inventados, que tenta parecer o mais realista possível, enquanto "simulação" sugere dados que foram criados para demonstrar algo em particular. Por exemplo, dados de "simulação" podem conter discrepâncias absurdas, apenas para demonstrar a importância de lidar adequadamente com discrepantes.
Cort Ammon - Restabelecer Monica
Pessoalmente, prefiro o termo "simulado" e o encontrei mais na literatura estatística (ou seja, "realizamos simulações para comparar nosso modelo x X, Y, Z ...."
Samir Rachid Zaim

Respostas:

45

Eu provavelmente chamaria esses dados "sintéticos" ou "artificiais", embora eu também os chamasse de "simulados" (a simulação é muito simples).

Louis Cialdella
fonte
30
Ouve-se "dados de brinquedos", "exemplo de brinquedos" e "dados fictícios". Também concordo que "simulado" pode se encaixar mesmo na ausência de números aleatórios.
rolando2
7
"Dados ilustrativos" ou "dados de exemplo" também podem funcionar
Henry
8
+1 ' dados sintéticos ' e ' exemplo de brinquedo ' são os dois termos que eu poderia usar, se surgir a ocasião, como 'exemplo construído'. Às vezes digo "exemplo ilustrativo" ou algo semelhante, particularmente quando o exemplo foi explicitamente construído para ter características particulares (por exemplo, quando projetado como um contra-exemplo para alguma noção equivocada).
Glen_b -instala Monica
1
Costumo usar dados de brinquedo (sem artificial ou simulado ) para conjuntos de dados reais (medidos) que eu "abusei" para demonstrar alguma coisa.
cbeleites apoia Monica em
1
Depende um pouco da sua aplicação o que funcionará melhor. Por exemplo, também estou fazendo um projeto com dados "falsos", mas outra parte do projeto envolve o uso de uma simulação de modelo de computador. Portanto, pode confundir o leitor me referir aos dados falsos como "simulados", implicando falsamente que os dados provêm da simulação. Então, confiei em "artificial" e, às vezes, descrevo os dados como "fabricados". Eu, pessoalmente, evitaria "sintético", pois para mim esse termo implicaria que os dados são algum tipo de combinação de outras fontes de dados (uma "síntese" de, por exemplo, dados A e dados B).
Ceph
12

Se você quiser se referir a seus dados como fictícios, estará em boa companhia, pois esse é o termo que Francis Anscombe usou para descrever seu agora famoso quarteto .

De Anscombe, FJ (1973). " Gráficos em análise estatística ", alt. Stat. 27 (1):

Alguns desses pontos são ilustrados por quatro conjuntos de dados fictícios, cada um consistindo em onze (x, y) pares, mostrados na tabela.

Mas acho que sua cautela está bem colocada, pois meu OED (v4) parece indicar que esse uso de fictício é obsoleto

fictício , a.

(fɪkˈtɪʃəs)

[f. L. fictīci-us (por exemplo, fingir, fingir) + -ous: ver -icício.]

1.1 † a.1.a Artificial em oposição ao natural (obs.). b.1.b Falsificação, 'imitação', farsa; não genuíno.

AkselA
fonte
Em termos de legibilidade, a primeira sugestão e os comentários são uma alternativa muito melhor. Não há necessidade de usar palavras incomuns e complicadas.
Tim
1
@ Tim: Eu quero concordar, mas não tenho muita certeza do que concordaria. Você está dizendo que fictício seria uma má escolha, apesar de já ter sido usado em um contexto semelhante antes? Porque é isso que estou dizendo.
AkselA
7

Em TI, costumamos chamá-lo de dados de maquete , que podem ser apresentados através de uma maquete (aplicativo).

Os dados da maquete também podem ser apresentados por meio de um aplicativo totalmente funcional, por exemplo, para testar a funcionalidade do aplicativo de maneira controlada.

ErikE
fonte
5
Bom ponto, mas acredito que dados de maquete e dados simulados não são exatamente os mesmos. Ao criar dados de maquete para testes de unidade, você precisa apenas preservar algumas propriedades muito básicas dos dados reais, enquanto, ao usar dados simulados para análise estatística, geralmente usa exemplos de dados mais sofisticados.
Tim
2
Ainda acredito que o ErikE está correto, quando você escreve código analítico, precisa da coisa real ou de dados simulados. Os dados simulados podem ser tão grandes quanto você deseja que sejam imo.
Mathijs Segers
1
As práticas provavelmente variam, assim como o uso da terminologia, eu acho. Para muitos de nossos testes e análises, usamos dados ao vivo que foram "desativados" por razões de segurança e anonimato. Para outros, criamos dados simples, como Tim descreve. Não tenho uma opinião forte, mas usamos o termo maquete de maneira bastante vaga.
ErikE
3

Vi sugestões repetidas para o termo "dados sintéticos". Entretanto, esse termo tem um significado amplamente usado e muito diferente do que você deseja expressar: https://en.wikipedia.org/wiki/Synthetic_data

Não tenho certeza de que exista um termo científico geralmente aceito, mas o termo "dados de exemplo" parece difícil de entender mal?

srass
fonte
1
Esse artigo parece um pouco confuso - a relação com o anonimato é bastante tênue.
Matt Krause
+1, mas eu concordo com o comentário anterior: além dos segundos parágrafos (dizendo que os dados sintetizados são um tipo de dados anônimos), o restante do artigo da Wikipedia parece estar descrevendo o que o interlocutor deseja. Ou seja, dados inventados com aparência realista.
Darren Cook
3

Encontrei o termo "dados falsos" em uma quantidade razoável. Eu acho que poderia ter algumas conotações negativas, mas já ouvi isso com frequência suficiente para que não se registre negativamente para mim.

FWIW, Andrew Gelman também o usa:

https://statmodeling.stat.columbia.edu/2009/09/04/fake-data_simul/

https://statmodeling.stat.columbia.edu/2019/03/23/yes-i-really-really-really-like-fake-data-simulation-and-i-cc-stop-talking-about-it/

https://books.google.dk/books?id=lV3DIdV0F9AC&pg=PA155&lpg=PA155&dq=fake+data+simulation&source=bl&ots=6ljKB6StQ4&sig=ACfU3U17GLP_84q_HfIQB4u5O6wV0yA2Aw&hl=en&sa=X&ved=2ahUKEwiF2_eB0uvjAhWswcQBHSn5Cn04ChDoATAAegQICRAB#v=onepage&q=fake%20data%20simulation&f=false

Uma pesquisa rápida no Google por "dados falsos" gera muitos resultados que parecem estar usando o termo da mesma forma:

https://scientistseessquirrel.wordpress.com/2016/03/10/good-uses-for-fake-data-part-1/

http://modernstatisticalworkflow.blogspot.com/2017/04/an-easy-way-to-simulate-fake-data-from.html

https://clayford.github.io/dwir/dwr_12_generating_data.html

E há até um fakeRpacote que sugere que isso é relativamente comum: https://cran.r-project.org/web/packages/fakeR/fakeR.pdf

mkt - Restabelecer Monica
fonte
2

Eu uso uma palavra diferente, dependendo da maneira em que eu uso os dados. Se eu encontrei o conjunto de dados inventado por aí e apontei meu algoritmo para ele de maneira confirmatória, a palavra "sintético" está correta.

No entanto, muitas vezes, sempre que uso esse tipo de dados, eu inventei os dados com a intenção específica de mostrar os recursos do meu algoritmo. Em outras palavras, inventei dados com o objetivo específico de obter "bons resultados". Em tais circunstâncias, gosto do termo "artificial", juntamente com uma explicação das minhas expectativas em relação aos dados. Isso ocorre porque não quero que ninguém cometa o erro de pensar que apontei meu algoritmo para algum conjunto de dados sintético arbitrário que encontrei por aí e realmente funcionou bem. Se eu tiver dados escolhidos com cereja (a ponto de realmente inventá-los) especificamente para fazer meu algoritmo funcionar bem, eu digo. Isso ocorre porque esses resultados fornecem evidências de que meu algoritmo podefunciona bem, mas fornece apenas evidências muito fracas de que se pode esperar que o algoritmo funcione bem em geral . A palavra "artificial" realmente resume muito bem o fato de ter escolhido os dados com "bons resultados" em mente, a priori.

"isso dá a impressão de dados fraudulentos ?"

Não, mas é importante ter clareza sobre a origem de qualquer conjunto de dados e suas expectativas a priori como experimentador ao relatar seus resultados em qualquer conjunto de dados. O termo "fraude" inclui explicitamente um aspecto de ter encoberto algo ou ter mentido completamente. A maneira # 1 de evitar a prática de fraudes na ciência é simplesmente ser honesto e direto sobre a natureza de seus dados e suas expectativas. Em outras palavras, se seus dados são fabricados e você não diz o mesmo de alguma maneira , e há algum tipo de expectativa de que os dados não sejam fabricados ou, pior ainda, você afirma que os dados são coletados de algum tipo não fabricado de maneira, então isso é"fraude". Não faça isso. Se você quiser usar algum sinônimo para o termo "fabricado" que "soa melhor", como "sintético", ninguém o culpará, mas ao mesmo tempo não acho que alguém notará a diferença, exceto você.

Uma nota lateral:

Menos óbvias são as circunstâncias em que se afirma ter expectativas a priori que são realmente explicações post hoc . Isso também é análise fraudulenta de dados.

Existe o perigo disso quando se escolhe dados especificamente com a intenção de "exibir" os recursos de um algoritmo, o que geralmente ocorre com dados sintéticos.

DHHDD

HDHD

Não há problema em fazer isso, desde que você seja honesto e franco sobre o que fez. Se você se esforçou para criar um conjunto de dados com "bons resultados", diga-o. Desde que você informe ao leitor as etapas que você tomou em sua análise de dados, ele possui as informações necessárias para avaliar efetivamente as evidências a favor ou contra suas hipóteses. Quando você não é honesto ou franco , isso pode dar a impressão de que suas evidências são mais fortes do que realmente são. Quando você SEMPRE é menos do que honesto e franco, a fim de fazer com que suas evidências pareçam mais fortes do que realmente são, então isso é, de fato, fraudulento.

De qualquer forma, é por isso que prefiro o termo "artificial" para esses conjuntos de dados, juntamente com uma breve explicação de que eles são, de fato, escolhidos com uma hipótese em mente. "Contrived" transmite a sensação de que não apenas criei um conjunto de dados sintético, mas o fiz com intenções particulares que refletem o fato de que minha hipótese já estava em vigor antes da criação do meu conjunto de dados.

ADx.y

tl; dr

Use o termo que desejar, "sintético", "artificial", "fabricado", "fictício". No entanto, o termo que você usa é insuficiente para garantir que seus resultados não sejam enganosos . Verifique se você é claro em seu relatório sobre como os dados foram gerados, incluindo suas expectativas em relação aos dados e os motivos pelos quais você escolheu os dados que escolheu.

Scott
fonte
Embora as respostas aqui se sobreponham e quase todas apresentem pontos positivos, creio que esse é o melhor ponto que nenhum termo único transmitirá a todos os leitores a intenção por trás da criação de dados. Os motivos podem variar não apenas apropriados, mas essenciais para o propósito, através da preguiça (maus textos introdutórios) a trapaça e fraude. Explicar por que você está fazendo isso por algum tempo pode ser uma boa ideia.
Nick Cox
... razões ...
Nick Cox
1

Primeiro, não há razão para não chamá-lo de "conjunto de dados". Não há termos universalmente acordados para dados "falsos" vs "simulados" vs ... Se o objetivo é ser completamente claro, é melhor dedicar uma frase, em vez de uma palavra, para qualificar o que é esse conjunto de dados. Depois disso, você pode relaxar a designação e apenas se referir aos seus dados como dados.

"Sintético", "artificial" não se distingue de outros conjuntos de dados "simulados" amostrados pelo MCMC em minha mente. O uso de um gerador de números quase aleatórios com uma semente fixa (conforme o treinamento adequado exigiria) também cria um conjunto de dados sintético ou artificial.

Se o objetivo de selecionar um conjunto de dados para uma ilustração específica, em vez de gerar uma instância ou realização de um modelo de probabilidade, acho melhor chamar esse conjunto de dados de " exemplo de conjunto de dados ". Dados como esses são semelhantes ao quarteto de Anscombe: totalmente abstratos e não plausíveis, mas destinados a ilustrar um ponto.

AdamO
fonte
1

Em biologia, as análises às vezes são demonstradas usando um conjunto de dados de animais míticos. A decisão de declarar explicitamente ou não que os dados são simulados depende do autor / revisor.

Guia do ecologista para o modelo animal, 2009

Esses tutoriais descrevem uma série de análises genéticas quantitativas em uma população de grifos (refletindo um compromisso entre os vieses de aves e mamíferos dos autores). Como o grifo é uma fera mítica, os dados fornecidos foram necessariamente simulados.

Variação de efeito fixo e estimativa de repetibilidade e herdabilidade: Issues and solutions, 2017

Para ilustrar isso, voltemos ao conjunto de dados unicórnio de Wilson (2008). É sabido que, em unicórnios, o comprimento do chifre varia de acordo com a massa corporal individual (inclinação: β = 0,403 para um modelo completo, incluindo idade, sexo e interação).

DA Wells
fonte
1
Abordagem interessante! Eu acho que isso poderia ser ótimo para o ensino de estatística de estudantes de biologia. Ao apresentar ao público, porém, não tenho certeza se isso daria a impressão certa
Frans Rodenburg
0

Intuitivamente, eu iria para o termo 'dados fictícios', no mesmo sentido em que "Lorem ipsum ..." é chamado de "texto fictício". A palavra 'manequim' é bastante geral e fácil de entender para pessoas de várias origens e, portanto, é menos provável que seja mal interpretada por leitores de uma base menos estatística.

Mathijs
fonte
2
Se estiver em um contexto de regressão, evitaria sobrecarregar "fictício", para que você não tenha variáveis ​​fictícias que codifiquem dados fictícios.
Matt Krause
Eu concordo, eu o evitaria pessoalmente, já que "Dummy" já tem uma conotação definida na regressão. Dado que há uma abundância de termos disponíveis, provavelmente é melhor evitar os termos que podem significar coisas diferentes para pessoas diferentes.
Samir Rachid Zaim
0

Os dados são em latim , dado que são usados ​​nos tempos modernos como uma abreviação para determinado conjunto de fatos registrados . Portanto, de certa forma, referir-se às gravações fabricadas como algum tipo de fato seria uma contradição aberta.

No entanto, devido ao crescente uso de dados para nos referirmos simplesmente a gravações - independentemente da presunção original de que os fatos sejam verdadeiros -, nos entendemos alegremente quando falamos de gravações que podem ou não ser verdadeiras - portanto, dados reais / falsos.

Resumirei minha experiência de maneiras de abordar as gravações fabricadas abaixo. O rótulo usado depende se alguém está assumindo que estamos falando de dados como gravações fabricadas com o objetivo de parecer razoavelmente realistas para permitir análises adicionais ou dados como uma carga computacional.

  • Nos círculos de análise / ciência de dados / consultoria estratégica, as pessoas abordam com mais frequência um conjunto fabricado de gravações geradas sob premissas realistas como dados sintéticos - e ocasionalmente dados simulados . Gravações fabricadas criadas usando premissas brutas são conhecidas como conjunto de dados de brinquedos .
  • Entre engenheiros de software, dados falsos , dados fictícios , dados confeccionados e dados mock-up são rótulos frequentes que sugerem principalmente para gravações não necessariamente significava ter propriedades realistas, mas apenas partilham propriedades básicas com os dados originais (dados de idade é sempre numérica , os endereços de email sempre são cadeias que contêm "@").
  • Pesquisadores acadêmicos se refeririam a um conjunto realista de gravações fabricadas como pseudo-dados ou dados simulados . Em alguns círculos, se o conjunto fabricado de observações é o resultado de uma simulação de Monte Carlo, pode ser referido coloquialmente como Monte Carlo . Gravações semi-realistas são comumente usadas para fins ilustrativos ou para testar hipóteses alternativas e são conhecidas como conjunto de dados de brinquedos
famargar
fonte
2
"Monte Carlo" é o nome do método, portanto o nome "coloquial" seria muito enganador.
Tim
@ Tim, de fato, pode ser visto como enganoso. No entanto, a linguagem é apenas uma ferramenta baseada no consenso de uma comunidade como uma maneira de se referir a algo. Tanto é assim que estamos nos referindo neste site a gravações e medições conforme indicado (inglês para dados latinos ). Se eu adotasse seu ponto de vista, consideraria as medidas simuladas simuladas como falsas, considerando-as altamente questionáveis.
famargar
Espero que você veja agora que se referir a uma "simulação de Monte Carlo" como simplesmente "Monte Carlo" é uma versão moderna de se referir a "observações dadas" como "dadas". Editei minha resposta para incorporar essa e mais considerações sobre o significado versus o uso real da palavra "dados".
famargar
1
"Os pesquisadores acadêmicos se referem a um conjunto realista de gravações fabricadas com mais freqüência como pseudo-dados": não me lembro de ter visto esse termo em mais de 40 anos de pesquisa acadêmica. "Os acadêmicos normalmente não têm utilidade para gravações irrealistas": desculpe, mas isso parece errado. Os acadêmicos em muitos, muitos campos usam simulações de vários tipos diferentes. Mesmo simulações irrealistas podem ser úteis, por exemplo, a variabilidade de amostras normais é um contexto importante para avaliar a não normalidade.
Nick Cox
O @NickCox Pseudodata é frequentemente usado em física e já o vi em biologia e estatística. Seria curioso saber qual é o seu campo e como ele se refere a simulações. Quanto aos dados irrealistas, fiz uma distinção entre irrealista e semi-realista. Perdi o seu caso de uso?
famargar 26/08