É apenas a agregação de pontos de dados? Ou é a representação dos pontos de dados para diferentes elementos em um formato tabular organizado com valores das diferentes variáveis? Qual a diferença dos dados brutos?
dataset
terminology
definition
ankit
fonte
fonte
Respostas:
Na minha experiência, "conjunto de dados" (ou "conjunto de dados") é um termo informal que se refere a uma coleção de dados. Geralmente, um conjunto de dados contém mais de uma variável e diz respeito a um único tópico; é provável que diga respeito a uma única amostra.
Um erro que muitas vezes vejo escritores de perguntas da Validação Cruzada cometem é usar "conjunto de dados" como sinônimo de "variável" ou "vetor".
fonte
Eu acho que a Wikipedia faz um trabalho decente em defini-lo:
Como você pode ver, o termo é um tanto vago.
fonte
Eu acho que você pode precisar definir o ponto de dados antes de definir o conjunto de dados : por que um é primitivo e não precisa de definição, mas não vice-versa?
Pelo menos duas definições fazem sentido para mim:
Uma ou mais observações (casos, registros, linhas) para uma ou mais variáveis (campos. Colunas).
Tudo o que é armazenado como dados em um arquivo legível por um programa de escolha.
O layout tabular é comum, mas não acho que faça parte de nenhuma definição; como os dados são armazenados pode ser praticamente importante, naturalmente.
PS A palavra "formato" está tão sobrecarregada que, para mim, é melhor evitar a menos que seja especificado sem ambiguidade. Eu já vi isso usado para
Texto geral ou específico ou formato de arquivo binário
Estrutura de dados, por exemplo, tabular ou outra
Armazenamento de dados ou tipos de variáveis, por exemplo, bit, número inteiro, real, caractere
Formato de exibição que controla a apresentação, por exemplo, detalhes sobre o número de casas decimais; exibição decimal, hexadecimal ou binária.
fonte
Já existem boas respostas aqui e acho que não posso aprofundar mais do que Nick Cox ou Franck Dernoncourt na questão de se "conjunto de dados" se refere à coleta conceitual de dados relacionados ou à organização específica desses dados, por exemplo, em uma tabela / matriz ou um arquivo legível por computador. A extração de Franck menciona casos extremos como dados coletados continuamente ou dados espalhados por várias tabelas, que vale a pena ter em mente se você supusesse que haveria uma definição simples. (Nem todo software de estatística pode lidar com isso, mas é muito fácil imaginar um caso em que os dados são armazenados em um banco de dados relacional com várias tabelas. O banco de dados inteiro é um "conjunto de dados" único?)
Uma coisa que acrescentarei é que os conjuntos de dados geralmente não são conjuntos, no sentido matemático! O Sensu stricto define que um conjunto contém um objeto ou não, mas não pode conter mais de uma cópia desse objeto. Se eu jogar um dado oito vezes e marcar 1, 4, 3, 5, 5, 4, 6, 4, o conjunto de pontuações roladas será apenas {1, 3, 4, 5, 6}. Note que os elementos podem estar em qualquer ordem, acabei de escrevê-los com valor crescente, mas o conjunto {5, 4, 1, 6, 3} é matematicamente igual a ele, por exemplo. Isso não é o que geralmente queremos dizer com conjunto de dados!
Mas os vetores são apenas para gravar uma variável - para várias, pode ser mais conveniente usar uma matriz para tabular com a ordem preservada. Para situações mais sofisticadas, como medir uma propriedade de uma grade tridimensional de voxels ao longo do tempo, você pode até organizar os dados em um tensor (veja, por exemplo, esta pergunta ).
Mas observe que conceitualmente um multiset pode ser suficiente na maioria das situações simples, mesmo que seja inconveniente para fins práticos. Se eu jogasse uma moeda simultaneamente ao rolar o dado e quisesse registrar os dois resultados juntos, poderia usar um multiset como {(1, H), (3, T), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} em vez de uma matriz. Um conjunto comum não será suficiente, pois não conta a multiplicidade de (4, H), por exemplo.
fonte