Perguntas com a marcação «r»

7

Novos níveis de fatores não presentes nos dados de treinamento

Estou recebendo o erro "Novos níveis de fatores não presentes nos dados de treinamento". Mas verifiquei os nlevels e a classe de todas as colunas em desenvolvimento, bem como os dados de teste, e eles são os mesmos. Alguma explicação

r machine-learning random-forest many-categories

7

Usando o pacote Impacto Causal do Google para avaliar a importância de uma intervenção planejada

Estou usando o pacote Causal Impact em R para inferir o efeito causal de uma intervenção em alguns dados altamente correlacionados e sazonais. Especificamente, recebi 17 dias de dados por hora, a intervenção ocorrendo no final do dia 13. Tenho dois conjuntos de dados de controle que não são...

r intervention-analysis causalimpact

7

Como testar a diferença de assimetria de duas amostras?

Eu tenho duas amostras. Observando suas densidades, uma parece simétrica e a outra, de alguma distribuição da direita. Eu gostaria de testar se os dois não têm a mesma assimetria (ignorando questões de inferência seletiva aqui). Meu plano é pegar uma replicação de bootstrap das duas amostras,...

r hypothesis-testing bootstrap skewness

7

Esta é uma simulação de Monte Carlo?

Então, vamos comparar duas distribuições normais Do this x times: runs <- 100000 a.samples <- rnorm(runs, mean = 5) b.samples <- rbeta(runs, mean = 0) mc.p.value <- sum(a.samples > b.samples)/runs Os valores mc.p. abaixo de nosso alfa (0,05) dividido por x dariam a taxa de...

r hypothesis-testing monte-carlo

7

Distribuição preditiva posterior vs estimativa da PAM

Considere um conjunto de dados de treinamento XXX, um modelo probabilístico parametrizado por θθ\thetae uma prévia P( θ )P(θ)P(\theta). Para um novo ponto de dadosx∗x∗x^*, podemos calcular P(x∗)P(x∗)P(x^*) usando: uma abordagem totalmente bayesiana: a distribuição preditiva posterior P(x∗| X) =...

bayesian maximum-likelihood posterior

7

Floresta aleatória com dados longitudinais

Tenho muitas medidas para vários indivíduos, mas não sei como explicar essa estrutura de repetição de medidas ao executar um modelo de floresta aleatório. Existe uma maneira de explicar a estrutura de dados subjacente dos dados longitudinais usando um modelo de floresta aleatória? Isso é mesmo...

r repeated-measures random-forest panel-data

7

Qual método de inicialização é o mais preferido?

Talvez essa pergunta dependa dos dados fornecidos, mas existe um método "melhor" de inicialização do que os outros? Estou simplesmente usando um conjunto de dados de uma variável (que consiste nas diferenças entre as pontuações de futebol (2 equipes) nas últimas 15 semanas) .. Primeiro, observe a...

r confidence-interval bootstrap

7

Valor ajustado versus probabilidade de regressão logística

Variável dependente Eu tenho um valor dependente no intervalo de [0,1]. Significado 0 e 1, e todos os valores intermediários estão incluídos. Portanto, esse é um valor proporcional, como, por exemplo, a porcentagem de terra que um agricultor fertiliza. Modelo O modelo no qual estou focando...

r logistic generalized-linear-model proportion logit

7

Gerando um conjunto de dados de alta dimensão onde o vizinho mais próximo se torna sem sentido

No artigo " Quando o 'vizinho mais próximo' é significativo? ", Lemos que, Mostramos que, sob certas condições amplas (em termos de distribuição de dados e consultas ou carga de trabalho), à medida que a dimensionalidade aumenta, a distância do vizinho mais próximo se aproxima da distância do...

machine-learning clustering dataset k-nearest-neighbour high-dimensional

7

Interpretando a saída TukeyHSD em R

Eu executei uma ANOVA simples em R e, em seguida, gerei as seguintes comparações de médias de TukeyHSD (): Eu tenho uma idéia muito boa (eu acho) do que tudo isso significa, exceto o 'p adj'. Se eu estiver correto: A diferença nas pontuações dos testes entre os Juniors e os Freshmen é de 4,86,...

r tukey-hsd

7

mínimos quadrados não lineares versus probabilidade máxima em R, nls () ou nlm ()?

Estou estimando o modelo onde e são parâmetros , é um vetor de parâmetros length, é uma matriz de dados , a variável dependente é binária e é um modelo probit, portanto, a função de distribuição cumulativa da normal normal distribuição. Para derivar a expectativa, assumiu-se que os erros são...

r maximum-likelihood nonlinear nls

7

Abordagem estatística para comparar a calibração entre modelos

Parece um problema comum, mas não consigo encontrar uma solução. Eu tenho um conjunto de observações binárias e dois modelos diferentes, cada um com previsões para cada observação. Eu quero comparar a calibração dos modelos. Existem várias abordagens para comparar a discriminação desses modelos...

r machine-learning logistic calibration scoring-rules

7

Interpretação da curva de calibração

Eu tenho um modelo de regressão logística binária derivada passo a passo. Eu usei a calibrate(, bw=200, bw=TRUE)função no rmspacote em R para estimar sua calibração futura. A saída é fornecida abaixo e mostra a estimativa da curva de calibração corrigida por overfitting de autoinicialização para o...

r logistic multiple-regression regression-strategies calibration

7

Existe alguma diferença entre estimar e em um estudo de simulação?

Em um estudo de simulação, existe alguma diferença entre ∙∙\bullet estimando a variância , vezes e tomando sua média, eσ2σ2\sigma^2100010001000 ∙∙\bullet estimando o desvio padrão , vezes e tomando sua média?σσ\sigma100010001000 Posso fazer alguém? Existe alguma preferência em fazer uma em...

self-study mathematical-statistics unbiased-estimator moments invariance

7

Explicação passo a passo da validação cruzada com dobras K com pesquisa em grade para otimizar hiperparâmetros

Estou ciente das vantagens da validação cruzada k-fold (e deixe-o-fora), bem como das vantagens de dividir seu conjunto de treinamento para criar um terceiro conjunto de 'validação', que você usa para avaliar modele o desempenho com base nas opções de hiperparâmetros, para que você possa otimizar e...

machine-learning cross-validation hyperparameter optimization

7

Normalizando todas as variáveis vs. usando a opção scale = TRUE no prcomp em R

Qual é a diferença entre normalizando as variáveis e fazendo PCA; usando a scale=TRUEopção (sem normalizar as variáveis) na prcompfunção em

r pca

7

Se eu provar o estimador de

Deixei XiXiX_i ser uma variável aleatória iid com pdf f(x|θ)f(x|θ)f(\mathbf{x}|\theta), Onde E(Xi)=6θ2E(Xi)=6θ2E(X_i) = 6\theta^2e θ>0θ>0\theta > 0. Eu calculei um estimador para o parâmetro (θθ\theta) do f(x|θ)f(x|θ)f(\mathbf{x}|\theta) ser estar θ^=x¯/6−−−√θ^=x¯/6\hat{\theta} =...

self-study mathematical-statistics inference unbiased-estimator

7

Alternativas ao gráfico de dispersão tridimensional

Para uma apresentação, tenho que visualizar dados tridimensionais. Eu deveria visualizá-los no "estilo de um gráfico de dispersão". As primeiras idéias de maio foram Um gráfico de dispersão tridimensional Uma matriz de dispersão Redução de dimensionalidade (PCA) e, posteriormente, um gráfico de...

r data-visualization scatterplot

7

Comparando duas distribuições multinomiais

Antecedentes: Imagine uma pizza cortada em 8 fatias. [ Em cada extremidade reta da fatia, insiro um ímã com polaridades opostas voltadas para fora. Se eu separar esses componentes, evitar sacudi-los e sacudi-los, eles deverão formar uma pizza cheia. Agora, se eu colocar uma fatia adicional...

r confidence-interval generalized-linear-model multivariate-analysis multinomial

7

Significado de baixo poder na neurociência após a combinação de resultados de muitas meta-análises (Button et al 2013)

Em um artigo de revisão de 2013 na Nature Neuroscience, Button et al. Falha de energia: por que o tamanho pequeno da amostra prejudica a confiabilidade da neurociência , foi afirmado que: o poder estatístico médio dos estudos nas neurociências é muito baixo Eles procuraram por meta-análises,...

p-value meta-analysis power neuroscience replicability