Estatísticas e Big Data

9

Qual modelo pode ser usado quando a suposição de variação constante é violada?

Como não podemos ajustar o modelo ARIMA quando a suposição de variação constante é violada, qual modelo pode ser usado para ajustar séries temporais

9

Parametrizando as distribuições de Behrens – Fisher

"Sobre o problema de Behrens-Fisher: uma revisão" de Seock-Ho Kim e Allen S. Cohen Jornal de Estatísticas Educacionais e Comportamentais , volume 23, número 4, inverno, 1998, páginas 356–377 Eu estou olhando para isso e ele diz: Fisher (1935, 1939) escolheu a estatística [onde é a...

distributions parameterization fiducial

9

As transformações de dados em dados não normais são necessárias para uma análise fatorial exploratória ao usar o método de extração do fator principal de eixo?

Estou desenvolvendo um questionário para medir quatro fatores que constituem espiritualidade e gostaria de fazer a seguinte pergunta: As transformações de dados em dados não normais são necessárias para uma análise fatorial exploratória ao usar o método de extração do fator principal de eixo? Eu...

factor-analysis skewness kurtosis eda

9

O que fazer com a heterogeneidade da variação quando o spread diminui com valores ajustados maiores

Estou tentando produzir um modelo misto linear, o código R é o seguinte. lme (Average.payoff ~ Jogo + Tipo + Outros.Tipo + Jogo: Tipo + Jogo: Outros.Tipo + Tipo: Outros.Tipo aleatório = ~ 1 | Assuntos, método = "REML", dados = Assuntosm1) -> lme1 O termo de resposta Average.payoff é...

regression mixed-model variance heteroscedasticity lme4-nlme

9

Como lidar com a previsão de séries temporais online?

Eu tenho lidado com o seguinte problema. Eu tenho uma espécie de sistema de tempo real e, a cada período de tempo, leio seu valor atual, criando uma série temporal (como 1, 12, 2, 3, 5, 9, 1, ...). Gostaria de conhecer métodos (estatística e aprendizado de máquina) para prever o próximo valor de...

time-series machine-learning online forecasting

9

Como comparar eventos observados x eventos esperados?

Suponha que eu tenha uma amostra de frequências de 4 eventos possíveis: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 e tenho as probabilidades esperadas de meus eventos ocorrerem: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Com a soma das frequências observadas dos meus quatro eventos (18), posso calcular as...

r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

9

Distribuições hiperprior para os parâmetros (matriz de escala e graus de liberdade) de um wishart antes de uma matriz de covariância inversa

Estou estimando várias matrizes de covariância inversa de um conjunto de medidas em diferentes subpopulações usando um wishart anterior em jags / rjags / R. Em vez de especificar uma matriz de escala e graus de liberdade na matriz de covariância inversa anterior (a distribuição wishart), eu...

bayesian covariance prior wishart hierarchical-bayesian

9

"Como

Pergunta curta: por que isso é verdade? Pergunta longa: Muito simplesmente, estou tentando descobrir o que justifica essa primeira equação. O autor do livro que estou lendo (contexto aqui, se você quiser, mas não é necessário), afirma o seguinte: Devido à suposição de quase gaussianidade,...

probability normal-distribution entropy maximum-entropy

9

Controlando a taxa de descoberta falsa em estágios

Eu tenho uma tabela tridimensional de tamanho . Cada célula da tabela é um teste de hipótese. Dividir a tabela na terceira dimensão produz 81 conjuntos de testes de hipóteses que são independentes entre os conjuntos, mas dependem dos mesmos. Originalmente, eu pensava que poderia controlar a taxa de...

multiple-comparisons false-discovery-rate

9

Por que a quantidade de variação explicada pelo meu 1º PC é tão próxima da correlação pareada média?

Qual é a relação entre o primeiro componente principal e a correlação média na matriz de correlação? Por exemplo, em uma aplicação empírica, observo que a correlação média é quase a mesma que a razão entre a variação do primeiro componente principal (primeiro valor próprio) e a variação total...

correlation pca mathematical-statistics eigenvalues

9

Como usar R gbm com distribution = “adaboost”?

A documentação afirma que R gbm com distribution = "adaboost" pode ser usado para o problema de classificação 0-1. Considere o seguinte fragmento de código: gbm_algorithm <- gbm(y ~ ., data = train_dataset, distribution = "adaboost", n.trees = 5000) gbm_predicted <- predict(gbm_algorithm,...

r gbm

9

Quando usar a regressão não paramétrica?

Estou usando o PROC GLM no SAS para ajustar uma equação de regressão da seguinte forma Y= b0 0+ b1 1X1 1+ b2X2+ b3X3+ b4tY=b0 0+b1 1X1 1+b2X2+b3X3+b4t Y = b_0 + b_1X_1 + b_2X_2 + b_3X_3 + b_4t O gráfico QQ dos vermelhos resultantes indica desvio da normalidade. Qualquer transformação de não é...

regression multiple-regression nonparametric residuals sas

9

Uso do parâmetro Gamma com máquinas de vetores de suporte

Ao usar libsvm, o parâmetro é um parâmetro para a função do kernel. Seu valor padrão é configurado como γ = 1γγ\gammaγ=1number of features.γ=1number of features.\gamma = \frac{1}{\text{number of features.}} Existe alguma orientação teórica para configurar esse parâmetro além dos métodos...

machine-learning svm data-mining libsvm kernel-trick

9

Tarefa aleatória: por que se preocupar?

A atribuição aleatória é valiosa porque garante a independência do tratamento dos possíveis resultados. É assim que leva a estimativas imparciais do efeito médio do tratamento. Mas outros esquemas de atribuição também podem garantir sistematicamente a independência do tratamento dos possíveis...

econometrics experiment-design causality instrumental-variables random-allocation

9

Distribuição de erros para regressão linear e logística

Com dados contínuos, uma regressão linear Y=β1+β2X2+uY=β1 1+β2X2+vocêY=\beta_1+\beta_2X_2+u assume que o termo de erro está distribuído N (0, σ2σ2\sigma^2 ) 1) Assumimos que Var (Y | x) é igualmente ~ N (0, σ2σ2\sigma^2 )? 2) Qual é essa distribuição de erro na regressão logística? Quando os...

logistic generalized-linear-model

9

Intervalos de confiança e previsão do modelo de regressão linear

Ok, estou tentando entender a regressão linear. Eu tenho um conjunto de dados e parece tudo bem, mas estou confuso. Este é o meu resumo-modelo linear: Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.2068621 0.0247002 8.375 4.13e-09 *** temp 0.0031074 0.0004779 6.502 4.79e-07...

r regression

9

Comparando taxas de incidência

Quero comparar com as taxas de incidência entre dois grupos (um sem doença e outro com). Eu estava planejando calcular a taxa de incidência (TIR), ou seja, grupo de taxa de incidência B / grupo de taxa de incidência A e, em seguida, testar se essa taxa é igual a 1 e finalmente calcular intervalos...

r poisson-distribution epidemiology incidence-rate-ratio

9

Cálculo de problemas, interpretação de conjuntos de regsubs e perguntas gerais sobre o procedimento de seleção de modelos

Eu quero selecionar modelos usando regsubsets(). Eu tenho um quadro de dados chamado olympiadaten (upload de dados: http://www.sendspace.com/file/8e27d0 ). Primeiro anexo esse quadro de dados e, em seguida, começo a analisar, meu código

r multiple-regression model-selection

9

Referências estatísticas freqüentistas para alguém bem versado na teoria moderna das probabilidades

Vindo de uma formação rigorosa na análise e na teoria moderna das probabilidades, considero as estatísticas bayesianas diretas e fáceis de entender, e as estatísticas freqüentistas incrivelmente confusas e pouco intuitivas. Parece que os freqüentadores estão realmente fazendo estatísticas...

references frequentist intuition

9

Intervalos de confiança versus tamanho da amostra?

Sou totalmente novo nas estatísticas e no campo dos intervalos de confiança. Portanto, isso pode ser muito trivial ou até parecer estúpido. Eu apreciaria se você pudesse me ajudar a entender ou me indicar alguma literatura / texto / blog que explique isso melhor. Vejo em vários sites de notícias...

confidence-interval sample-size