Perguntas com a marcação «large-data»

9
Cluster com economia de espaço

A maioria dos algoritmos de agrupamento que eu vi começou com a criação de distâncias cada um entre todos os pontos, o que se torna problemático em conjuntos de dados maiores. Existe alguém que não faz isso? Ou faz isso em algum tipo de abordagem parcial / aproximada / escalonada? Qual algoritmo /...

9
Estimando a dimensão de um conjunto de dados

Um colega em estatística aplicada me enviou o seguinte: "Gostaria de saber se você conhece alguma maneira de descobrir a verdadeira dimensão do domínio de uma função. Por exemplo, um círculo é uma função unidimensional em um espaço bidimensional. Se eu não souber desenhar, existe uma estatística...

9
Bootstrapping paramétrico, semiparamétrico e não paramétrico para modelos mistos

Os seguintes enxertos são retirados deste artigo . Eu sou novato no bootstrap e estou tentando implementar o bootstrap paramétrico, semiparamétrico e não paramétrico para o modelo misto linear com o R bootpacote. Código R Aqui está o meu

8
R como uma alternativa ao SAS para grandes dados

Eu sei que R não é particularmente útil para analisar grandes conjuntos de dados, uma vez que R carrega todos os dados na memória, enquanto algo como o SAS faz análise sequencial. Dito isto, existem pacotes como o bigmemory que permitem aos usuários realizar análises de grandes dados (análise...

8
Floresta aleatória em uma configuração de Big Data

Eu tenho um conjunto de dados com 5.818.446 linhas e 51 colunas, onde 50 delas são preditores. Minha resposta é quantitativa, por isso estou interessado em um modelo de regressão. Estou tentando ajustar uma floresta aleatória aos meus dados usando o pacote de intercalação. No entanto, não tenho RAM...

8
Por que um modelo estatístico superajustaria se recebesse um grande conjunto de dados?

Meu projeto atual pode exigir que eu construa um modelo para prever o comportamento de um determinado grupo de pessoas. o conjunto de dados de treinamento contém apenas 6 variáveis ​​(id é apenas para fins de identificação): id, age, income, gender, job category, monthly spend em que monthly...