Estou recebendo o erro "Novos níveis de fatores não presentes nos dados de treinamento". Mas verifiquei os nlevels e a classe de todas as colunas em desenvolvimento, bem como os dados de teste, e eles são os mesmos. Alguma explicação
Estou recebendo o erro "Novos níveis de fatores não presentes nos dados de treinamento". Mas verifiquei os nlevels e a classe de todas as colunas em desenvolvimento, bem como os dados de teste, e eles são os mesmos. Alguma explicação
Estou usando o pacote Causal Impact em R para inferir o efeito causal de uma intervenção em alguns dados altamente correlacionados e sazonais. Especificamente, recebi 17 dias de dados por hora, a intervenção ocorrendo no final do dia 13. Tenho dois conjuntos de dados de controle que não são...
Eu tenho duas amostras. Observando suas densidades, uma parece simétrica e a outra, de alguma distribuição da direita. Eu gostaria de testar se os dois não têm a mesma assimetria (ignorando questões de inferência seletiva aqui). Meu plano é pegar uma replicação de bootstrap das duas amostras,...
Então, vamos comparar duas distribuições normais Do this x times: runs <- 100000 a.samples <- rnorm(runs, mean = 5) b.samples <- rbeta(runs, mean = 0) mc.p.value <- sum(a.samples > b.samples)/runs Os valores mc.p. abaixo de nosso alfa (0,05) dividido por x dariam a taxa de...
Considere um conjunto de dados de treinamento XXX, um modelo probabilístico parametrizado por θθ\thetae uma prévia P( θ )P(θ)P(\theta). Para um novo ponto de dadosx∗x∗x^*, podemos calcular P(x∗)P(x∗)P(x^*) usando: uma abordagem totalmente bayesiana: a distribuição preditiva posterior P(x∗| X) =...
Tenho muitas medidas para vários indivíduos, mas não sei como explicar essa estrutura de repetição de medidas ao executar um modelo de floresta aleatório. Existe uma maneira de explicar a estrutura de dados subjacente dos dados longitudinais usando um modelo de floresta aleatória? Isso é mesmo...
Talvez essa pergunta dependa dos dados fornecidos, mas existe um método "melhor" de inicialização do que os outros? Estou simplesmente usando um conjunto de dados de uma variável (que consiste nas diferenças entre as pontuações de futebol (2 equipes) nas últimas 15 semanas) .. Primeiro, observe a...
Variável dependente Eu tenho um valor dependente no intervalo de [0,1]. Significado 0 e 1, e todos os valores intermediários estão incluídos. Portanto, esse é um valor proporcional, como, por exemplo, a porcentagem de terra que um agricultor fertiliza. Modelo O modelo no qual estou focando...
No artigo " Quando o 'vizinho mais próximo' é significativo? ", Lemos que, Mostramos que, sob certas condições amplas (em termos de distribuição de dados e consultas ou carga de trabalho), à medida que a dimensionalidade aumenta, a distância do vizinho mais próximo se aproxima da distância do...
Eu executei uma ANOVA simples em R e, em seguida, gerei as seguintes comparações de médias de TukeyHSD (): Eu tenho uma idéia muito boa (eu acho) do que tudo isso significa, exceto o 'p adj'. Se eu estiver correto: A diferença nas pontuações dos testes entre os Juniors e os Freshmen é de 4,86,...
Estou estimando o modelo onde e são parâmetros , é um vetor de parâmetros length, é uma matriz de dados , a variável dependente é binária e é um modelo probit, portanto, a função de distribuição cumulativa da normal normal distribuição. Para derivar a expectativa, assumiu-se que os erros são...
Parece um problema comum, mas não consigo encontrar uma solução. Eu tenho um conjunto de observações binárias e dois modelos diferentes, cada um com previsões para cada observação. Eu quero comparar a calibração dos modelos. Existem várias abordagens para comparar a discriminação desses modelos...
Eu tenho um modelo de regressão logística binária derivada passo a passo. Eu usei a calibrate(, bw=200, bw=TRUE)função no rmspacote em R para estimar sua calibração futura. A saída é fornecida abaixo e mostra a estimativa da curva de calibração corrigida por overfitting de autoinicialização para o...
Em um estudo de simulação, existe alguma diferença entre ∙∙\bullet estimando a variância , vezes e tomando sua média, eσ2σ2\sigma^2100010001000 ∙∙\bullet estimando o desvio padrão , vezes e tomando sua média?σσ\sigma100010001000 Posso fazer alguém? Existe alguma preferência em fazer uma em...
Estou ciente das vantagens da validação cruzada k-fold (e deixe-o-fora), bem como das vantagens de dividir seu conjunto de treinamento para criar um terceiro conjunto de 'validação', que você usa para avaliar modele o desempenho com base nas opções de hiperparâmetros, para que você possa otimizar e...
Qual é a diferença entre normalizando as variáveis e fazendo PCA; usando a scale=TRUEopção (sem normalizar as variáveis) na prcompfunção em
Deixei XiXiX_i ser uma variável aleatória iid com pdf f(x|θ)f(x|θ)f(\mathbf{x}|\theta), Onde E(Xi)=6θ2E(Xi)=6θ2E(X_i) = 6\theta^2e θ>0θ>0\theta > 0. Eu calculei um estimador para o parâmetro (θθ\theta) do f(x|θ)f(x|θ)f(\mathbf{x}|\theta) ser estar θ^=x¯/6−−−√θ^=x¯/6\hat{\theta} =...
Para uma apresentação, tenho que visualizar dados tridimensionais. Eu deveria visualizá-los no "estilo de um gráfico de dispersão". As primeiras idéias de maio foram Um gráfico de dispersão tridimensional Uma matriz de dispersão Redução de dimensionalidade (PCA) e, posteriormente, um gráfico de...
Antecedentes: Imagine uma pizza cortada em 8 fatias. [ Em cada extremidade reta da fatia, insiro um ímã com polaridades opostas voltadas para fora. Se eu separar esses componentes, evitar sacudi-los e sacudi-los, eles deverão formar uma pizza cheia. Agora, se eu colocar uma fatia adicional...
Em um artigo de revisão de 2013 na Nature Neuroscience, Button et al. Falha de energia: por que o tamanho pequeno da amostra prejudica a confiabilidade da neurociência , foi afirmado que: o poder estatístico médio dos estudos nas neurociências é muito baixo Eles procuraram por meta-análises,...