Atualmente, tenho que analisar aproximadamente 20 milhões de registros e criar modelos de previsão. Até agora, experimentei o Statistica, SPSS, RapidMiner e R. Entre estes, o Statistica parece ser mais adequado para lidar com mineração de dados e a interface do usuário do RapidMiner também é muito útil, mas parece que o Statistica, RapidMiner e SPSS são adequados apenas para conjuntos de dados menores .
Alguém poderia recomendar uma boa ferramenta para grandes conjuntos de dados?
Te agradece!
Respostas:
Vou comentar em segundo lugar no @suncoolsu: a dimensionalidade do seu conjunto de dados não é o único critério que deve orientá-lo em direção a um software específico. Por exemplo, se você planeja fazer cluster não supervisionado ou usar o PCA, existem várias ferramentas dedicadas que lidam com grandes conjuntos de dados, como comumente encontrado em estudos genômicos.
Agora, R (64 bits) lida com grandes volumes de dados muito bem, e você ainda tem a opção de armazenamento em disco uso em vez de acesso RAM, mas ver CRAN Task Ver alto desempenho e computação paralela com R . GLM padrão acomodará facilmente 20.000 obs. (mas veja também speedglm ) dentro de um prazo razoável, conforme mostrado abaixo:
Para dar uma ilustração mais concreta, usei R para processar e analisar grandes dados genéticos (800 indivíduos x 800k SNPs , onde o principal modelo estatístico era um GLM estratificado com várias covariáveis (2 min); isso foi possível graças ao eficiente R e Os códigos C disponíveis no pacote snpMatrix (em comparação, o mesmo tipo de modelo levou cerca de 8 minutos usando um software C ++ dedicado ( plink ) .Eu também trabalhei em um estudo clínico (12k pacientes x 50 variáveis de interesse) e R se encaixa nas minhas necessidades Finalmente, até onde eu sei, o pacote lme4 é o único software que permite ajustar o modelo de efeitos mistos a conjuntos de dados grandes e desequilibrados (como é o caso da avaliação educacional em larga escala).
Stata / SE é outro software que pode lidar com grandes conjuntos de dados . O SAS e o SPSS são softwares baseados em arquivos; portanto, eles lidam com grandes volumes de dados. Uma análise comparativa do software para datamining está disponível em Data Mining Tools: Qual é o melhor para CRM . Para visualização, também há muitas opções; talvez um bom começo seja Gráficos de grandes conjuntos de dados: visualizando um milhão ( revisado no JSS por P Murrell) e todos os tópicos relacionados neste site.
fonte
A maioria dos algoritmos do Apache Mahout escala muito além dos 20 milhões de registros, mesmo com dados de alta dimensão. Se você precisar criar apenas um modelo de previsão, existem ferramentas específicas, como o Vowpal Wabbit (http://hunch.net/~vw/), que podem ser facilmente escalonadas para bilhões de registros em uma única máquina.
fonte
Existe o pacote RHIPE (integração R-Hadoop). É muito fácil (com exceções) analisar grandes quantidades de dados em R.
fonte
É difícil dar uma boa resposta sem saber que tipo de modelo você tem em mente.
Para regressão linear, usei com sucesso o pacote biglm em R.
fonte
Como você está construindo modelos preditivos a partir de grandes conjuntos de dados, você pode se beneficiar do BigQuery do Google (uma versão hospedada da tecnologia do trabalho de pesquisa do Google sobre análises massivas de conjuntos de dados com a Dremel). Você pode exportar os resultados da consulta como CSV para ingestão em um classificador preditivo, por exemplo.
O BigQuery possui uma WebUI que permite executar consultas e exportar resultados. A versão beta (v1) do BigQuery apresentava um cliente R, e a versão de produção (v2) também terá um cliente R.
fonte
Treinamos observações de 3,5 milhões de usuários e 44 recursos usando R de 64 bits em uma instância do EC2 com 32 GB de ram e 4 núcleos. Usamos florestas aleatórias e funcionou bem. Observe que tivemos que pré-processar / manipular os dados antes do treinamento.
fonte
O SAS Enterprise Miner versão 6.2 não teria problemas ao lidar com 20 milhões de observações e com uma variedade de modelos que podem ser adaptados à sua situação. O problema com o SAS geralmente é o custo. Aqui está um resumo do que o SAS EM pode fazer: SAS EM 6.2: O que há de novo
fonte
Você pode ver o ScaVis ( http://jwork.org/scavis )? Eu não olhei para 20M, mas você pode tentar verificá-lo.
fonte
O RHIPE é uma ótima solução, e eu provavelmente escolheria essa, se tiver esse problema! mas você já considerou o NCSS? Até onde eu sei, a versão mais recente 10 pode criar esses modelos. A versão completa. é muito caro, mas em vários serviços de área de trabalho remota você pode executar o aplicativo apenas por uma pequena taxa, mas eu não sei .. é melhor verificar
fonte