Perguntas com a marcação «large-data»

13
Agrupe Big Data em R e a amostragem é relevante?

Eu sou novo na ciência de dados e tenho um problema ao encontrar clusters em um conjunto de dados com 200.000 linhas e 50 colunas em R. Como os dados têm variáveis ​​numéricas e nominais, métodos como o K-significa que usa a medida de distância euclidiana não parece ser uma escolha apropriada....

12
Como executar a imputação de valores em um número muito grande de pontos de dados?

Eu tenho um conjunto de dados muito grande e faltam cerca de 5% de valores aleatórios. Essas variáveis ​​estão correlacionadas entre si. O exemplo a seguir do conjunto de dados R é apenas um exemplo de brinquedo com dados correlatos simulados. set.seed(123) # matrix of X variable xmat <-...

12
Teste de hipótese com Big Data

Como você realiza testes de hipóteses com big data? Eu escrevi o seguinte script do MATLAB para enfatizar minha confusão. Tudo o que ele faz é gerar duas séries aleatórias e executar uma regressão linear simples de uma variável na outra. Ele realiza essa regressão várias vezes usando diferentes...

10
Faz sentido calcular intervalos de confiança e testar hipóteses quando dados de toda a população estão disponíveis?

Faz sentido calcular intervalos de confiança e testar hipóteses quando os dados de toda a população estão disponíveis? Na minha opinião, a resposta é não, pois podemos calcular com precisão os verdadeiros valores dos parâmetros. Mas então, qual é a proporção máxima de dados da população original...