Estatísticas e Big Data

8

Mapas auto-organizados vs. k-means do kernel

Para um aplicativo, quero agrupar dados (potencialmente dimensionais) e extrair a probabilidade de pertencer a um cluster. Eu considero no momento mapas auto-organizados ou kernel significa fazer o trabalho. Quais são os prós e os contras de cada classificador para esta tarefa? Estou com saudades...

clustering unsupervised-learning

8

Qual método está simulando pvalues a partir da nova amostragem dos dados

Há um tempo atrás, fiz uma pergunta sobre a correlação dos tempos entre os carimbos de data e hora e recebi uma resposta de Peter Ellis que dizia que eu podia calcular as distâncias médias entre os códigos ... Isso já lhe dará uma noção de quais comportamentos estão agrupados, mas você também...

bootstrap monte-carlo resampling quasi-monte-carlo

8

Previsão de variável de resposta categórica

Eu tenho o seguinte tipo de dados (codificado em R): v.a = c('cat', 'dog', 'dog', 'goat', 'cat', 'goat', 'dog', 'dog') v.b = c(1, 2, 1, 2, 1, 2, 1, 2) v.c = c('blue', 'red', 'blue', 'red', 'red', 'blue', 'yellow', 'yellow') set.seed(12) v.d = rnorm(8) aov(v.a ~ v.b + v.c + v.d) # Error Gostaria...

r logistic anova categorical-data multinomial

8

Demonstração do viés quantil da amostra

Ao fazer algumas simulações, percebi que o quantil da amostra é um estimador tendencioso do quantil verdadeiro. E, de acordo com minhas simulações, uma potencialmente muito tendenciosa. Fiquei surpreso com esse resultado, pois o CDF empírico não é tendencioso, mas depois de algumas pesquisas na...

estimation quantiles

8

Exemplos para uma classe SVM em R

Estou tentando fazer o SVM de uma classe em R. Eu tenho tentado usar o pacote e1071 / ksvm kernlab. Mas não tenho certeza se estou fazendo isso corretamente. Existe algum exemplo de trabalho para SVM de uma classe em R? Além disso, Estou dando uma grande matriz de preditores como X. Como é...

r svm

8

Visualização de dados longitudinais com resultado binário

Para dados longitudinais com resultado numérico, posso usar gráficos de espaguete para visualizar os dados. Por exemplo, algo assim (extraído do site Estatísticas da UCLA): tolerance<-read.table("http://www.ats.ucla.edu/stat/r/faq/tolpp.csv",sep=",", header=T) head(tolerance,...

data-visualization repeated-measures binary-data panel-data

8

Probabilidades de regressão logística

Eu construí um modelo de regressão logística em R e, embora o resultado pareça ser satisfatório até certo ponto, há uma pergunta que não consigo resolver. Não tenho certeza se minha abordagem está correta. Eu sei que o objetivo geral do modelo logístico é prever a probabilidade de sucesso de uma...

probability distributions logistic binomial

8

Como escolher a divisão na floresta Aleatória para preditores categóricos (recursos)?

Entendo como a melhor divisão é escolhida para floresta aleatória para preditores numéricos (recursos). Os preditores numéricos são classificados para cada valor calculado como impureza ou entropia de Gini e é escolhido um limite que fornece a melhor divisão. Mas qual a melhor divisão escolhida...

machine-learning random-forest

8

Combinação de valores p de diferentes testes estatísticos aplicados nos mesmos dados

Embora o título da pergunta pareça trivial, gostaria de explicar que não é tão trivial no sentido de que é diferente da questão de aplicar o mesmo teste estatístico em conjuntos de dados semelhantes para testar contra uma hipótese nula total (meta-análise, por exemplo, usando o método de Fisher...

hypothesis-testing probability statistical-significance multiple-comparisons p-value

8

Quando n aumenta, o valor t aumenta em um teste de hipótese, mas a tabela t é exatamente o oposto. Por quê?

A fórmula para em um teste de hipótese é dada por: t = ˉ X - μtttt = X¯- μσ^/ n--√.t=X¯−μσ^/n. t=\frac{\bar{X}-\mu}{\hat \sigma/\sqrt{n}}. Quando aumenta, o valor aumenta de acordo com a fórmula acima. Mas por que o valor crítico diminui na tabela medida que (que é uma função de ) aumenta?t t t...

hypothesis-testing self-study statistical-significance t-test t-distribution

8

Modelo de fatoração de matriz para sistemas de recomendação como determinar o número de recursos latentes?

Estou tentando projetar uma técnica de fatoração matricial para um sistema simples de recomendação de itens de usuário. Eu tenho 2 perguntas sobre isso. Primeiro, em uma implementação simples que vi da técnica de fatoração matricial para recomendação de filme, o autor acabou de inicializar as...

recommender-system matrix-decomposition parameterization ensemble

8

Recuperando largura mínima que contém fração especificada de todos os valores

Gostaria de encontrar os limites mínimo / máximo de uma janela deslizante de tamanho mínimo que contém uma certa fração do número total de elementos em uma matriz ou coleção de números. Exemplo: usando números inteiros para facilitar a explicação, digamos que a proporção de elementos que...

python descriptive-statistics shortest-half

8

Como testar se a variação de duas distribuições é diferente se as distribuições não são normais

Estou estudando duas populações geograficamente isoladas da mesma espécie. Inspecionando as distribuições, vejo que ambas são bimodais (há certa sazonalidade em sua ocorrência), mas os picos em uma população são muito mais altos e mais estreitos (ou seja, a variação dos picos locais é menor). Que...

distributions statistical-significance variance

8

Distribuição da proposta da matriz de covariância

Em uma implementação do MCMC de modelos hierárquicos, com efeitos aleatórios normais e um Wishart anterior para sua matriz de covariância, a amostragem de Gibbs é normalmente usada. No entanto, se alterarmos a distribuição dos efeitos aleatórios (por exemplo, para Student-t ou outro), a conjugação...

mcmc hierarchical-bayesian metropolis-hastings

8

Boa estrutura fatorial interna, mas

Estou executando um CFA e obtendo bons índices de ajuste (CFI = .99, RMSEA = .01) para uma escala unidimensional. No entanto, quando testo a consistência interna, fico com s de Cronbach ( ). Eu tentei de tudo, desde remover discrepâncias até descartar itens e ainda acabar com o mesmo problema.α =...

sem reliability psychometrics confirmatory-factor cronbachs-alpha

8

Deviance vs Pearson qualidade do ajuste

Estou tentando criar um modelo usando regressão binomial negativa (GLM binomial negativo). Eu tenho um tamanho de amostra relativamente pequeno (maior que 300) e os dados não são redimensionados. Percebi que existem duas maneiras de medir a qualidade do ajuste - uma é desvio e a outra é a...

regression generalized-linear-model chi-squared deviance

8

o teste de Shapiro Wilk é insensível nas caudas?

O teste de Shapiro Wilk é insensível à cauda da distribuição das amostras? Eu li essa declaração em um artigo, mas não consigo descobrir por que, a partir da estatística de teste W. Alguém poderia me ajudar a entender

goodness-of-fit

8

Função de probabilidade de dados truncados

Estou com problemas para entender o conceito e a derivação da probabilidade de dados truncados. Por exemplo, se eu quiser encontrar a função de probabilidade com base em uma amostra de uma distribuição, mas ao retirar uma amostra da distribuição, observo os valores truncados (onde há um corte de ,...

dataset likelihood

8

Causa de singularidade na matriz para regressão quantílica

Estou realizando regressões quantílicas em R usando o pacote quantreg. Meu conjunto de dados inclui 12.328 observações, variando de 0,12 a 330. Os pontos no tempo para meus dados não são exatamente contínuos; todos os dados se enquadram em uma das dezenas de posições que variam de 73 a 397. Quando...

r regression

8

Teste Qui-quadrado com 0 valores esperados

Minha tabela de contingência: heterozygous homozygous.minor homozygous.major observed 2 0 3 expected 0 0 5 A população esperada é composta apenas pelo genótipo AA, mas na população observada observamos 2 genótipos AB. Para calcular o Chi-sq para isso, eu ignoraria os dois casos em que o...

chi-squared