Eu sei que R não é particularmente útil para analisar grandes conjuntos de dados, uma vez que R carrega todos os dados na memória, enquanto algo como o SAS faz análise sequencial. Dito isto, existem pacotes como o bigmemory que permitem aos usuários realizar análises de grandes dados (análise estatística) com mais eficiência no R.
Eu queria saber, além de todas as informações teóricas, alguém usou / está usando R para analisar grandes conjuntos de dados em um ambiente corporativo e quais são os problemas típicos que podem surgir. Por conjuntos de dados grandes, estou me referindo a conjuntos de dados com tamanho de ~ 200 GB. Além disso, qualquer reflexão sobre exemplos reais da migração do SAS para o R nesses casos de uso seria útil.
r
sas
large-data
xbsd
fonte
fonte
ff
ebigmemory
. @Glen_b, você acha que o novo R (com uma máquina de 64 bits) rivalizará com o SAS (em termos de tamanho possível dos conjuntos de dados)?Respostas:
Eu trabalhei em conjuntos de dados muito grandes no R e não tive problemas.
Existem várias abordagens que funcionam, mas meu paradigma básico é que encontro maneiras de processar os dados "sequencialmente". Obviamente, o SAS tem as mesmas restrições de memória fundamentais, se você o estiver usando na mesma máquina, usar R é um pouco mais simples.
Em todos os casos que já encontrei, estou analisando algum tipo de resumo dos dados ou analisando partes dos dados e, em seguida, resumindo os resultados. De qualquer maneira, isso é fácil de realizar na R.
É muito fácil criar resumos se você tiver seus dados estruturados de alguma forma (realmente de qualquer maneira). O Hadoop é uma ferramenta líder na criação de resumos, mas é fácil fazer o processamento em lote nos arquivos R Data, e se os dados caberem no dispositivo de armazenamento local, também será mais rápido processá-los em lote dessa maneira (em termos de tempo de processamento e tempo de desenvolvimento).
Também é muito fácil agrupar sua análise por partes, usando o mesmo processo de pensamento.
Se você está realmente morrendo de vontade de criar um modelo linear diretamente em um conjunto de dados gigantesco, acho que a grande memória é sua resposta, conforme sugerido por Stéphane Laurent.
Eu realmente não acho que exista uma "resposta" para "como você lida com restrições de memória" ou "muda para uma nova plataforma", mas esses são meus longos centavos.
fonte
Não tenho experiência prática com a parte revolucionária da análise, mas há um blog sobre isso
http://www.r-bloggers.com/allstate-compares-sas-hadoop-and-r-for-big-data-insurance-models/
Ele usa o hadoop (computação distribuída) para resolver esse problema de memória.
fonte