Perguntas com a marcação «large-data»

'Dados grandes' refere-se a situações em que o número de observações (pontos de dados) é tão grande que requer mudanças na maneira como o analista de dados pensa ou conduz a análise. (Não confunda com 'alta dimensionalidade'.)

56
Desafios da indústria versus Kaggle. A coleta de mais observações e o acesso a mais variáveis ​​são mais importantes que a modelagem extravagante?

Eu espero que o título seja auto-explicativo. No Kaggle, a maioria dos vencedores usa o empilhamento com algumas vezes centenas de modelos de base, para extrair alguns% extra de MSE, precisão ... Em geral, na sua experiência, o quão importante é a modelagem sofisticada, como empilhar versus...

44
O que exatamente é Big Data?

Fui perguntado em várias ocasiões a pergunta: O que é Big-Data? Tanto por estudantes quanto por meus parentes que estão começando a se interessar por estatísticas e ML. Encontrei este CV-post . E sinto que concordo com a única resposta lá. A página da Wikipedia também tem alguns...

21
Primeiro passo para big data (

Suponha que você esteja analisando um enorme conjunto de dados na ordem de bilhões de observações por dia, em que cada observação possui algumas milhares de variáveis ​​numéricas e categoriais esparsas e possivelmente redundantes. Digamos que exista um problema de regressão, um problema de...

21
Como projetar um novo vetor no espaço PCA?

Depois de executar a análise de componentes principais (PCA), quero projetar um novo vetor no espaço do PCA (ou seja, encontrar suas coordenadas no sistema de coordenadas do PCA). Eu calculei o PCA na linguagem R usando prcomp. Agora eu devo poder multiplicar meu vetor pela matriz de rotação PCA....

18
Opções de análise de dados fora do núcleo

Uso SAS profissionalmente há quase 5 anos. Eu o instalei no meu laptop e frequentemente tenho que analisar conjuntos de dados com 1.000 a 2.000 variáveis ​​e centenas de milhares de observações. Tenho procurado alternativas ao SAS que me permitam realizar análises em conjuntos de dados de tamanhos...