Eu quero selecionar modelos usando regsubsets(). Eu tenho um quadro de dados chamado olympiadaten (upload de dados: http://www.sendspace.com/file/8e27d0 ). Primeiro anexo esse quadro de dados e, em seguida, começo a analisar, meu código
Eu quero selecionar modelos usando regsubsets(). Eu tenho um quadro de dados chamado olympiadaten (upload de dados: http://www.sendspace.com/file/8e27d0 ). Primeiro anexo esse quadro de dados e, em seguida, começo a analisar, meu código
Eu não sei muito sobre estatísticas, então tenha paciência comigo. Digamos que eu tenho um conjunto de 1000 trabalhadores. Quero descobrir quem é o trabalhador mais esforçado, mas só posso medir a quantidade de trabalho realizado em grupos de 1 a 100 em mais de uma hora de trabalho. Supondo que...
Eu tenho o seguinte conjunto de dados: https://dl.dropbox.com/u/22681355/ORACLE.csv e gostaria de plotar as alterações diárias em 'Abrir' por 'Data', então fiz o seguinte: oracle <- read.csv(file="http://dl.dropbox.com/u/22681355/ORACLE.csv", header=TRUE) plot(oracle$Date, oracle$Open,...
Estou tentando ajustar um modelo linear em alguns dados com apenas um preditor (digamos (x, y)). Os dados são tais que, para valores pequenos de x, os valores de y ajustam-se firmemente a uma linha reta; no entanto, à medida que os valores de x aumentam, os valores de y se tornam mais voláteis....
Usando plot.rqo quantregpacote em R, podemos plotar a distribuição de estimativa do coeficiente e obter algo como isto: Quais são as linhas vermelhas pontilhadas? A pesquisa extensiva revelou que a do meio é a média de todas as 99 estimativas, mas ainda não sabemos sobre a linha vermelha...
Eu sou iniciante em R. Você poderia explicar como usar ses no pacote de previsão de previsão R ? Eu gostaria de escolher o número de períodos iniciais e a constante de suavização. d <-
Eu tenho um grande conjunto de preditores (mais de 43.000) para prever uma variável dependente que pode assumir 2 valores (0 ou 1). O número de observações é superior a 45.000. A maioria dos preditores são unigramas, bigramas e trigramas de palavras, portanto há um alto grau de colinearidade entre...
Dado o tempo de sobrevivência com intervalo de censura, como faço para executar um modelo Cox PH com intervalo de censura R? Uma pesquisa rseek exibe o pacote intcox, que não existe mais no Rrepositório. Estou quase certo de que a coxphfunção no survivalpacote não pode lidar com dados de...
Eu estava lendo este livro Reconhecimento de padrões e aprendizado de máquina de Bishop. Eu tive uma confusão relacionada a uma derivação do sistema dinâmico linear. No LDS, assumimos que as variáveis latentes são contínuas. Se Z denota as variáveis latentes e X denota as variáveis...
Estou produzindo um script para criar exemplos de inicialização do catsconjunto de dados (do -MASS-pacote). Seguindo o livro de Davidson e Hinkley [1], executei uma regressão linear simples e adotei um procedimento não paramétrico fundamental para o bootstrapping a partir de observações da iid, ou...
É bem conhecido que, como você tem mais provas (dizer na forma de maior para n exemplos IID), a Bayesian antes se "esquecido", e mais da inferência é impactado pela evidência (ou a probabilidade).nnnnnn É fácil vê-lo em vários casos específicos (como Bernoulli com Beta anterior ou outro tipo de...
Eu estava depurando recentemente um script R e achei algo muito estranho, o autor definiu sua própria função de valor p pval <- function(x, y){ if (x+y<20) { # x + y is small, requires R.basic p1<- nChooseK(x+y,x) * 2^-(x+y+1); p2<- nChooseK(x+y,y) * 2^-(x+y+1); pvalue = max(p1,...
Quero saber se existe alguma maneira possível de calcular o coeficiente de Jaccard usando a multiplicação de matrizes. Eu usei esse código jaccard_sim <- function(x) { # initialize similarity matrix m <- matrix(NA, nrow=ncol(x),ncol=ncol(x),dimnames=list(colnames(x),colnames(x)))...
Eu estava tentando criar alguns dados de teste para regressão logística e encontrei este post Como simular dados artificiais para regressão logística? É uma boa resposta, mas cria apenas variáveis contínuas. Que tal uma variável categórica x3 com 5 níveis (ABCDE) associada a y para o mesmo...
Alguém conhece um bom método para determinar se o agrupamento usando kmeans é apropriado? Ou seja, e se sua amostra for realmente homogênea? Eu sei que algo como um modelo de mistura (via mclust em R) fornecerá estatísticas de ajuste para o caso de cluster 1: k, mas parece que todas as técnicas...
Eu tenho um modelo de regressão parecido com este:Y=β0+β1X1+β2X2+β3X3+β12X1X2+β13X1X3+β123X1X2X3Y=β0+β1X1+β2X2+β3X3+β12X1X2+β13X1X3+β123X1X2X3Y = \beta_0+\beta_1X_1 + \beta_2X_2 + \beta_3X_3 +\beta_{12}X_1X_2+\beta_{13}X_1X_3+\beta_{123}X_1X_2X_3 ... ou na notação R: y ~ x1 + x2 + x3 + x1:x2 +...
Stan (em particular, rstan) possui instalações integradas para gerar distribuições posteriores preditivas? Não é difícil gerar a distribuição do padrão, mas prefiro não reinventar a
Gostaria de saber se existe uma boa maneira de calcular o critério de agrupamento com base na fórmula BIC, para uma saída k-Médias em R? Estou um pouco confuso sobre como calcular esse BIC para que eu possa compará-lo com outros modelos de cluster. Atualmente, estou usando a implementação do pacote...
Estou explorando as propriedades psicométricas de uma medida de autorrelato de 10 itens. Eu tenho cerca de 400 casos em duas amostras independentes. Os itens são concluídos em escalas Likert de 4 pontos. Um EFA suporta claramente uma solução de um fator (por exemplo, primeiro valor próprio acima de...
Alguém sabe de uma função ou pacote R que pode me ajudar a transformar escores z em escores percentuais? O objetivo final é classificar ou classificar um grupo de respondentes em quatro categorias com base nas alturas de suas pontuações z (20% de pontuações mais baixas, 30%, 30%, 20% de pontuações...