Perguntas com a marcação «large-data»

10

Como visualizar grandes dados de séries temporais interativamente?

Costumo lidar com uma quantidade de tamanho razoável de dados de séries temporais, 50 a 200 milhões de vezes com registros de data e hora associados e gostaria de visualizá-los dinamicamente. Existe software existente para fazer isso de forma eficaz? E as bibliotecas e formatos de dados? O cache...

10

Regressão do processo Gaussiano para conjuntos de dados de alta dimensão

Só queria ver se alguém tem alguma experiência em aplicar a regressão de processo Gaussiana (GPR) a conjuntos de dados de alta dimensão. Estou examinando alguns dos vários métodos GPR esparsos (por exemplo, pseudo-entradas GPR esparsas) para ver o que poderia funcionar para conjuntos de dados de...

machine-learning predictive-models large-data gaussian-process

9

Quais algoritmos de aprendizado de máquina podem ser escalados usando hadoop / map-reduz

Atualmente, os algoritmos de aprendizado de máquina escalonáveis parecem o burburinho. Toda empresa está lidando com nada além de big data . Existe um livro que discute quais algoritmos de aprendizado de máquina podem ser escalados usando arquiteturas paralelas como Map-Reduce e quais algoritmos...

machine-learning large-data

9

Como calcular uma medida de precisão com base no RMSE? Meu grande conjunto de dados é normalmente distribuído?

Eu tenho vários conjuntos de dados da ordem de milhares de pontos. Os valores em cada conjunto de dados são X, Y, Z, referindo-se a uma coordenada no espaço. O valor Z representa uma diferença na elevação no par de coordenadas (x, y). Normalmente, no meu campo de GIS, o erro de elevação é...

normal-distribution large-data

9

Cluster com economia de espaço

A maioria dos algoritmos de agrupamento que eu vi começou com a criação de distâncias cada um entre todos os pontos, o que se torna problemático em conjuntos de dados maiores. Existe alguém que não faz isso? Ou faz isso em algum tipo de abordagem parcial / aproximada / escalonada? Qual algoritmo /...

clustering algorithms large-data

9

Uma amostra pode ser muito grande para ANOVA ou teste t?

Tenho quase um milhão de conjuntos de dados e sempre que executo um teste de comparação médio, ANOVA ou um teste t, obtenho um nível de significância menor que 0,0001 no SPSS. Estou preocupado que minha amostra seja tão grande que, é claro, quando eu comparo os meios, ela será significativamente...

anova t-test effect-size large-data

9

Estimando a dimensão de um conjunto de dados

Um colega em estatística aplicada me enviou o seguinte: "Gostaria de saber se você conhece alguma maneira de descobrir a verdadeira dimensão do domínio de uma função. Por exemplo, um círculo é uma função unidimensional em um espaço bidimensional. Se eu não souber desenhar, existe uma estatística...

large-data

9

Bootstrapping paramétrico, semiparamétrico e não paramétrico para modelos mistos

Os seguintes enxertos são retirados deste artigo . Eu sou novato no bootstrap e estou tentando implementar o bootstrap paramétrico, semiparamétrico e não paramétrico para o modelo misto linear com o R bootpacote. Código R Aqui está o meu

r mixed-model bootstrap central-limit-theorem stable-distribution time-series hypothesis-testing markov-process r correlation categorical-data association-measure meta-analysis r anova confidence-interval lm r bayesian multilevel-analysis logit regression logistic least-squares eda regression notation distributions random-variable expected-value distributions markov-process hidden-markov-model r variance group-differences microarray r descriptive-statistics machine-learning references r regression r categorical-data random-forest data-transformation data-visualization interactive-visualization binomial beta-distribution time-series forecasting logistic arima beta-regression r time-series seasonality large-data unevenly-spaced-time-series correlation statistical-significance normalization population group-differences demography

9

Como selecionar rapidamente variáveis importantes de um conjunto de dados muito grande?

Eu tenho um conjunto de dados com cerca de 2.000 variáveis binárias / 200.000 linhas e estou tentando prever uma única variável dependente binária. Meu principal objetivo, neste estágio, não é obter precisão de previsão, mas identificar quais dessas variáveis são preditores importantes....

machine-learning data-mining large-data

9

Redução de dimensão escalável

Considerando o número de recursos constante, o Barnes-Hut t-SNE possui uma complexidade de , projeções aleatórias e PCA têm uma complexidade de tornando-os "acessíveis" para conjuntos de dados muito grandes.O(nlogn)O(nlog⁡n)O(n\log n)O(n)O(n)O(n) Por outro lado, os métodos baseados no...

pca dimensionality-reduction large-data multidimensional-scaling tsne

8

R como uma alternativa ao SAS para grandes dados

Eu sei que R não é particularmente útil para analisar grandes conjuntos de dados, uma vez que R carrega todos os dados na memória, enquanto algo como o SAS faz análise sequencial. Dito isto, existem pacotes como o bigmemory que permitem aos usuários realizar análises de grandes dados (análise...

r sas large-data

8

Floresta aleatória em uma configuração de Big Data

Eu tenho um conjunto de dados com 5.818.446 linhas e 51 colunas, onde 50 delas são preditores. Minha resposta é quantitativa, por isso estou interessado em um modelo de regressão. Estou tentando ajustar uma floresta aleatória aos meus dados usando o pacote de intercalação. No entanto, não tenho RAM...

r random-forest large-data

8

Quais são algumas utilidades de matrizes densas nas estatísticas?

OK, eu não sou estatístico (nem de perto). Sou um pesquisador de computação de alto desempenho e queria alguns casos de teste para matrizes densas grandes (maiores que 5000 x 5000). Eu pedi aqui e em alguns outros lugares, mas nunca recebi nenhuma resposta de um estatístico. Estou muito interessado...

large-data matrix

8

Fazendo regressões em amostras de um arquivo muito grande: as médias e SEs dos coeficientes de amostra são estimadores consistentes?

Eu tenho um arquivo bastante larege 100M linhas e 30 colunas ou mais em que eu gostaria de executar várias regressões. Eu tenho código especializado para executar as regressões em todo o arquivo, mas o que eu gostaria de fazer é extrair amostras aleatórias do arquivo e executá-las em R. A...

r regression large-data bootstrap

8

Por que os regressores irrelevantes se tornam estatisticamente significativos em amostras grandes?

Estou tentando entender melhor a significância estatística, os tamanhos dos efeitos e similares. Tenho uma percepção (talvez errada) de que mesmo regressores irrelevantes geralmente se tornam estatisticamente significativos em grandes amostras . Por irrelevante, quero dizer que não há explicação...

regression statistical-significance effect-size large-data

8

Posso subamostrar um grande conjunto de dados a cada iteração do MCMC?

Problema: quero realizar uma amostragem de Gibbs para inferir algumas posteriores em um grande conjunto de dados. Infelizmente, meu modelo não é muito simples e, portanto, a amostragem é muito lenta. Eu consideraria abordagens variacionais ou paralelas, mas antes de ir tão longe ... Pergunta:...

sampling bootstrap mcmc large-data gibbs

8

Por que um modelo estatístico superajustaria se recebesse um grande conjunto de dados?

Meu projeto atual pode exigir que eu construa um modelo para prever o comportamento de um determinado grupo de pessoas. o conjunto de dados de treinamento contém apenas 6 variáveis (id é apenas para fins de identificação): id, age, income, gender, job category, monthly spend em que monthly...

modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

8

Coordenadas em estrela vs. análise de componentes principais

Atualmente, estou preparando uma apresentação para um curso universitário em "Análise visual de dados". E um dos meus tópicos é a visualização "Star Coordinate". Star Coordinates Como o Star Coordinates realiza uma transformação de dados de alta dimensão, e a conhecida técnica PCA também o faz,...

data-visualization pca large-data

7

Como posso detectar rapidamente trapaças em dados grandes?

Suponha que tenhamos um conjunto de dados com milhões de linhas e milhares de colunas e a tarefa seja a classificação binária. Quando executamos um modelo de regressão logística, o desempenho é muito melhor que o esperado, por exemplo, classificação quase perfeita. Suspeitamos que existem algumas...

algorithms linear large-data high-dimensional