Estou escrevendo um exemplo e inventei alguns dados. Quero que fique claro para o leitor que não se trata de dados reais, mas também não quero dar a impressão de malícia, pois serve apenas como exemplo.
Não existe nenhum componente (pseudo) aleatório para esses dados em particular, então parece-me que 'simulado' não é apropriado. Se eu chamá-lo de fictício ou fabricado, isso dá a impressão de dados fraudulentos ? 'Maquiagem' é uma palavra que se encaixa em um contexto científico?
Qual é a terminologia na literatura estatística para dados inventados não simulados?
terminology
synthetic-data
Frans Rodenburg
fonte
fonte
Respostas:
Eu provavelmente chamaria esses dados "sintéticos" ou "artificiais", embora eu também os chamasse de "simulados" (a simulação é muito simples).
fonte
Se você quiser se referir a seus dados como fictícios, estará em boa companhia, pois esse é o termo que Francis Anscombe usou para descrever seu agora famoso quarteto .
De Anscombe, FJ (1973). " Gráficos em análise estatística ", alt. Stat. 27 (1):
Mas acho que sua cautela está bem colocada, pois meu OED (v4) parece indicar que esse uso de fictício é obsoleto
fonte
Em TI, costumamos chamá-lo de dados de maquete , que podem ser apresentados através de uma maquete (aplicativo).
Os dados da maquete também podem ser apresentados por meio de um aplicativo totalmente funcional, por exemplo, para testar a funcionalidade do aplicativo de maneira controlada.
fonte
Vi sugestões repetidas para o termo "dados sintéticos". Entretanto, esse termo tem um significado amplamente usado e muito diferente do que você deseja expressar: https://en.wikipedia.org/wiki/Synthetic_data
Não tenho certeza de que exista um termo científico geralmente aceito, mas o termo "dados de exemplo" parece difícil de entender mal?
fonte
Encontrei o termo "dados falsos" em uma quantidade razoável. Eu acho que poderia ter algumas conotações negativas, mas já ouvi isso com frequência suficiente para que não se registre negativamente para mim.
FWIW, Andrew Gelman também o usa:
https://statmodeling.stat.columbia.edu/2009/09/04/fake-data_simul/
https://statmodeling.stat.columbia.edu/2019/03/23/yes-i-really-really-really-like-fake-data-simulation-and-i-cc-stop-talking-about-it/
https://books.google.dk/books?id=lV3DIdV0F9AC&pg=PA155&lpg=PA155&dq=fake+data+simulation&source=bl&ots=6ljKB6StQ4&sig=ACfU3U17GLP_84q_HfIQB4u5O6wV0yA2Aw&hl=en&sa=X&ved=2ahUKEwiF2_eB0uvjAhWswcQBHSn5Cn04ChDoATAAegQICRAB#v=onepage&q=fake%20data%20simulation&f=false
Uma pesquisa rápida no Google por "dados falsos" gera muitos resultados que parecem estar usando o termo da mesma forma:
https://scientistseessquirrel.wordpress.com/2016/03/10/good-uses-for-fake-data-part-1/
http://modernstatisticalworkflow.blogspot.com/2017/04/an-easy-way-to-simulate-fake-data-from.html
https://clayford.github.io/dwir/dwr_12_generating_data.html
E há até um
fakeR
pacote que sugere que isso é relativamente comum: https://cran.r-project.org/web/packages/fakeR/fakeR.pdffonte
Eu uso uma palavra diferente, dependendo da maneira em que eu uso os dados. Se eu encontrei o conjunto de dados inventado por aí e apontei meu algoritmo para ele de maneira confirmatória, a palavra "sintético" está correta.
No entanto, muitas vezes, sempre que uso esse tipo de dados, eu inventei os dados com a intenção específica de mostrar os recursos do meu algoritmo. Em outras palavras, inventei dados com o objetivo específico de obter "bons resultados". Em tais circunstâncias, gosto do termo "artificial", juntamente com uma explicação das minhas expectativas em relação aos dados. Isso ocorre porque não quero que ninguém cometa o erro de pensar que apontei meu algoritmo para algum conjunto de dados sintético arbitrário que encontrei por aí e realmente funcionou bem. Se eu tiver dados escolhidos com cereja (a ponto de realmente inventá-los) especificamente para fazer meu algoritmo funcionar bem, eu digo. Isso ocorre porque esses resultados fornecem evidências de que meu algoritmo podefunciona bem, mas fornece apenas evidências muito fracas de que se pode esperar que o algoritmo funcione bem em geral . A palavra "artificial" realmente resume muito bem o fato de ter escolhido os dados com "bons resultados" em mente, a priori.
Não, mas é importante ter clareza sobre a origem de qualquer conjunto de dados e suas expectativas a priori como experimentador ao relatar seus resultados em qualquer conjunto de dados. O termo "fraude" inclui explicitamente um aspecto de ter encoberto algo ou ter mentido completamente. A maneira # 1 de evitar a prática de fraudes na ciência é simplesmente ser honesto e direto sobre a natureza de seus dados e suas expectativas. Em outras palavras, se seus dados são fabricados e você não diz o mesmo de alguma maneira , e há algum tipo de expectativa de que os dados não sejam fabricados ou, pior ainda, você afirma que os dados são coletados de algum tipo não fabricado de maneira, então isso é"fraude". Não faça isso. Se você quiser usar algum sinônimo para o termo "fabricado" que "soa melhor", como "sintético", ninguém o culpará, mas ao mesmo tempo não acho que alguém notará a diferença, exceto você.
Uma nota lateral:
Menos óbvias são as circunstâncias em que se afirma ter expectativas a priori que são realmente explicações post hoc . Isso também é análise fraudulenta de dados.
Existe o perigo disso quando se escolhe dados especificamente com a intenção de "exibir" os recursos de um algoritmo, o que geralmente ocorre com dados sintéticos.
Não há problema em fazer isso, desde que você seja honesto e franco sobre o que fez. Se você se esforçou para criar um conjunto de dados com "bons resultados", diga-o. Desde que você informe ao leitor as etapas que você tomou em sua análise de dados, ele possui as informações necessárias para avaliar efetivamente as evidências a favor ou contra suas hipóteses. Quando você não é honesto ou franco , isso pode dar a impressão de que suas evidências são mais fortes do que realmente são. Quando você SEMPRE é menos do que honesto e franco, a fim de fazer com que suas evidências pareçam mais fortes do que realmente são, então isso é, de fato, fraudulento.
De qualquer forma, é por isso que prefiro o termo "artificial" para esses conjuntos de dados, juntamente com uma breve explicação de que eles são, de fato, escolhidos com uma hipótese em mente. "Contrived" transmite a sensação de que não apenas criei um conjunto de dados sintético, mas o fiz com intenções particulares que refletem o fato de que minha hipótese já estava em vigor antes da criação do meu conjunto de dados.
tl; dr
Use o termo que desejar, "sintético", "artificial", "fabricado", "fictício". No entanto, o termo que você usa é insuficiente para garantir que seus resultados não sejam enganosos . Verifique se você é claro em seu relatório sobre como os dados foram gerados, incluindo suas expectativas em relação aos dados e os motivos pelos quais você escolheu os dados que escolheu.
fonte
Primeiro, não há razão para não chamá-lo de "conjunto de dados". Não há termos universalmente acordados para dados "falsos" vs "simulados" vs ... Se o objetivo é ser completamente claro, é melhor dedicar uma frase, em vez de uma palavra, para qualificar o que é esse conjunto de dados. Depois disso, você pode relaxar a designação e apenas se referir aos seus dados como dados.
"Sintético", "artificial" não se distingue de outros conjuntos de dados "simulados" amostrados pelo MCMC em minha mente. O uso de um gerador de números quase aleatórios com uma semente fixa (conforme o treinamento adequado exigiria) também cria um conjunto de dados sintético ou artificial.
Se o objetivo de selecionar um conjunto de dados para uma ilustração específica, em vez de gerar uma instância ou realização de um modelo de probabilidade, acho melhor chamar esse conjunto de dados de " exemplo de conjunto de dados ". Dados como esses são semelhantes ao quarteto de Anscombe: totalmente abstratos e não plausíveis, mas destinados a ilustrar um ponto.
fonte
Em biologia, as análises às vezes são demonstradas usando um conjunto de dados de animais míticos. A decisão de declarar explicitamente ou não que os dados são simulados depende do autor / revisor.
Guia do ecologista para o modelo animal, 2009
Variação de efeito fixo e estimativa de repetibilidade e herdabilidade: Issues and solutions, 2017
fonte
Intuitivamente, eu iria para o termo 'dados fictícios', no mesmo sentido em que "Lorem ipsum ..." é chamado de "texto fictício". A palavra 'manequim' é bastante geral e fácil de entender para pessoas de várias origens e, portanto, é menos provável que seja mal interpretada por leitores de uma base menos estatística.
fonte
Os dados são em latim , dado que são usados nos tempos modernos como uma abreviação para determinado conjunto de fatos registrados . Portanto, de certa forma, referir-se às gravações fabricadas como algum tipo de fato seria uma contradição aberta.
No entanto, devido ao crescente uso de dados para nos referirmos simplesmente a gravações - independentemente da presunção original de que os fatos sejam verdadeiros -, nos entendemos alegremente quando falamos de gravações que podem ou não ser verdadeiras - portanto, dados reais / falsos.
Resumirei minha experiência de maneiras de abordar as gravações fabricadas abaixo. O rótulo usado depende se alguém está assumindo que estamos falando de dados como gravações fabricadas com o objetivo de parecer razoavelmente realistas para permitir análises adicionais ou dados como uma carga computacional.
fonte