O que exatamente se entende por um "conjunto de dados"?

10

É apenas a agregação de pontos de dados? Ou é a representação dos pontos de dados para diferentes elementos em um formato tabular organizado com valores das diferentes variáveis? Qual a diferença dos dados brutos?

ankit
fonte
O que você quer dizer com "ponto de dados", você espera que seja pelo menos 2D? Uma série temporal ou um conjunto de resultados de exames pode ser um conjunto de dados; no mínimo, essas podem ser apenas séries em uma variável, possivelmente sem rótulos de linha. Por resposta de @FranckDernoncourt
smci
11
Eu realmente acho que é uma coleção de dados. Certamente é assim que uso o termo. Acho que não há muito nisso. Se os dados são "brutos", pré-processados ​​ou limpos, etc., é ortogonal.
gung - Restabelece Monica

Respostas:

9

Na minha experiência, "conjunto de dados" (ou "conjunto de dados") é um termo informal que se refere a uma coleção de dados. Geralmente, um conjunto de dados contém mais de uma variável e diz respeito a um único tópico; é provável que diga respeito a uma única amostra.

Um erro que muitas vezes vejo escritores de perguntas da Validação Cruzada cometem é usar "conjunto de dados" como sinônimo de "variável" ou "vetor".

Kodiologist
fonte
3
Concordou no conjunto de dados vs variável ou vetor. Não me inicie em "dados", como em "Eu tenho dados". Por outro lado, "eu tenho um conjunto de dados" é uma maneira maravilhosa de não irritar de qualquer maneira, irritar aqueles que insistem que os dados são plurais ou irritar aqueles que consideram essa insistência pedante, se eles pensam sobre isso.
Nick Cox
3
@NickCox Nas guerras gramaticais sobre "dados", estou na facção menos popular, que afirma que "dados" é um substantivo em massa.
Kodiologist
3
Suspeito que seja uma maioria agora e pense mais fortemente que está ganhando popularidade.
Nick Cox
8

Eu acho que a Wikipedia faz um trabalho decente em defini-lo:

Geralmente, um conjunto de dados corresponde ao conteúdo de uma única tabela de banco de dados ou de uma única matriz de dados estatísticos, onde cada coluna da tabela representa uma variável específica e cada linha corresponde a um determinado membro do conjunto de dados em questão. O conjunto de dados lista valores para cada uma das variáveis, como altura e peso de um objeto, para cada membro do conjunto de dados. Cada valor é conhecido como dado. O conjunto de dados pode compreender dados para um ou mais membros, correspondendo ao número de linhas.

O termo conjunto de dados também pode ser usado de maneira mais vaga, para se referir aos dados em uma coleção de tabelas intimamente relacionadas, correspondendo a um experimento ou evento específico. Um exemplo desse tipo são os conjuntos de dados coletados pelas agências espaciais que realizam experimentos com instrumentos a bordo de sondas espaciais.

Na disciplina de dados abertos, conjunto de dados é a unidade para medir as informações liberadas em um repositório público de dados abertos. O portal europeu de dados abertos agrega mais de meio milhão de conjuntos de dados. Nesse campo, outras definições foram propostas, mas atualmente não há uma oficial. Alguns outros problemas (fontes de dados em tempo real, conjuntos de dados não relacionais etc.) aumentam a dificuldade de chegar a um consenso sobre isso.

Como você pode ver, o termo é um tanto vago.

Franck Dernoncourt
fonte
E em uma configuração de visão computacional, um conjunto de dados poderia ser apenas uma coleção de imagens naturais e seus rótulos ou anotações.
Sycorax diz Restabelecer Monica
O que se entende por "banco de dados *?
ankit
@ankit O tradicional CS significa en.wikipedia.org/wiki/Database
Franck Dernoncourt
@ Sycorax Sim, acho que poderíamos considerar uma imagem (ou algum outro sinal) como um dado de blob no banco de dados.
Franck Dernoncourt 6/11
7

Eu acho que você pode precisar definir o ponto de dados antes de definir o conjunto de dados : por que um é primitivo e não precisa de definição, mas não vice-versa?

Pelo menos duas definições fazem sentido para mim:

  1. Uma ou mais observações (casos, registros, linhas) para uma ou mais variáveis ​​(campos. Colunas).

  2. Tudo o que é armazenado como dados em um arquivo legível por um programa de escolha.

O layout tabular é comum, mas não acho que faça parte de nenhuma definição; como os dados são armazenados pode ser praticamente importante, naturalmente.

PS A palavra "formato" está tão sobrecarregada que, para mim, é melhor evitar a menos que seja especificado sem ambiguidade. Eu já vi isso usado para

  1. Texto geral ou específico ou formato de arquivo binário

  2. Estrutura de dados, por exemplo, tabular ou outra

  3. Armazenamento de dados ou tipos de variáveis, por exemplo, bit, número inteiro, real, caractere

  4. Formato de exibição que controla a apresentação, por exemplo, detalhes sobre o número de casas decimais; exibição decimal, hexadecimal ou binária.

Nick Cox
fonte
6

Já existem boas respostas aqui e acho que não posso aprofundar mais do que Nick Cox ou Franck Dernoncourt na questão de se "conjunto de dados" se refere à coleta conceitual de dados relacionados ou à organização específica desses dados, por exemplo, em uma tabela / matriz ou um arquivo legível por computador. A extração de Franck menciona casos extremos como dados coletados continuamente ou dados espalhados por várias tabelas, que vale a pena ter em mente se você supusesse que haveria uma definição simples. (Nem todo software de estatística pode lidar com isso, mas é muito fácil imaginar um caso em que os dados são armazenados em um banco de dados relacional com várias tabelas. O banco de dados inteiro é um "conjunto de dados" único?)

Uma coisa que acrescentarei é que os conjuntos de dados geralmente não são conjuntos, no sentido matemático! O Sensu stricto define que um conjunto contém um objeto ou não, mas não pode conter mais de uma cópia desse objeto. Se eu jogar um dado oito vezes e marcar 1, 4, 3, 5, 5, 4, 6, 4, o conjunto de pontuações roladas será apenas {1, 3, 4, 5, 6}. Note que os elementos podem estar em qualquer ordem, acabei de escrevê-los com valor crescente, mas o conjunto {5, 4, 1, 6, 3} é matematicamente igual a ele, por exemplo. Isso não é o que geralmente queremos dizer com conjunto de dados!

x¯=1 1nEu=1 1nxEux1 1x2

Mas os vetores são apenas para gravar uma variável - para várias, pode ser mais conveniente usar uma matriz para tabular com a ordem preservada. Para situações mais sofisticadas, como medir uma propriedade de uma grade tridimensional de voxels ao longo do tempo, você pode até organizar os dados em um tensor (veja, por exemplo, esta pergunta ).

Mas observe que conceitualmente um multiset pode ser suficiente na maioria das situações simples, mesmo que seja inconveniente para fins práticos. Se eu jogasse uma moeda simultaneamente ao rolar o dado e quisesse registrar os dois resultados juntos, poderia usar um multiset como {(1, H), (3, T), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} em vez de uma matriz. Um conjunto comum não será suficiente, pois não conta a multiplicidade de (4, H), por exemplo.

Silverfish
fonte
11
Eu poderia comprar a ideia de que um conjunto de dados é um conjunto de observações com apenas as rugas de que ele pode precisar de seus identificadores para diferenciá-los. Mas você está certo de que o significado aqui está a alguma distância daquele da teoria dos conjuntos. Sublinhe, como você sugere aqui, que a ordem das observações geralmente é crucial e, muitas vezes, mas nem sempre, é dada por um tempo ou outras variáveis ​​de pedido.
Nick Cox
@NickCox (+1) De fato, o que ainda não encontrei tempo, ou de outra maneira, para expressar é que as observações geralmente vêm com um identificador - às vezes temporal, às vezes com base na localização, às vezes com os dois. Quando codificamos os dados em um vetor, matriz ou tensor, que geralmente fornece diretamente a estrutura que queremos e um identificador explícito (como um índice codificado) pode ser desnecessário, principalmente se for apenas a ordem ou a posição relativa que importa. Sem dúvida, existe uma terminologia correta para tudo isso.
Silverfish
Não tenho problema em dizer que a ordem não importa. Não possui uma variável única. A ordem é importante quando você tem valores X emparelhados com, digamos, o tempo da medição. Mas então, podemos realmente pensar nos pontos como multidimensionais, e a ordem de um conjunto de dados multidimensionais não importa novamente. Também não tenho um problema em pensar que existe, na realidade, ou um identificador implícito que torna os dois 5's únicos.
gung - Restabelece Monica
@gung Eu estava pensando em conjuntos de dados nos quais o tempo ou a ordem serial estão implícitos. Eu diria que foi uma prática ruim, e agora desnecessária, não ter uma variável de pedido explícita, mas a falta dessa variável de pedido não desqualifica ser um conjunto de dados. De fato, na década de 1970, eu processava rotineiramente séries espaciais com identificador implícito, porque meus próprios programas Fortran faziam o trabalho (não trivial) de inserir um desnecessário.
Nick Cox
Isso parece bom para mim, @NickCox. Eu diria que a variável order está implícita, nesse caso, mas em certo sentido ainda está lá.
gung - Restabelece Monica