Estatísticas e Big Data

8
Mapas auto-organizados vs. k-means do kernel

Para um aplicativo, quero agrupar dados (potencialmente dimensionais) e extrair a probabilidade de pertencer a um cluster. Eu considero no momento mapas auto-organizados ou kernel significa fazer o trabalho. Quais são os prós e os contras de cada classificador para esta tarefa? Estou com saudades...

8
Demonstração do viés quantil da amostra

Ao fazer algumas simulações, percebi que o quantil da amostra é um estimador tendencioso do quantil verdadeiro. E, de acordo com minhas simulações, uma potencialmente muito tendenciosa. Fiquei surpreso com esse resultado, pois o CDF empírico não é tendencioso, mas depois de algumas pesquisas na...

8
Exemplos para uma classe SVM em R

Estou tentando fazer o SVM de uma classe em R. Eu tenho tentado usar o pacote e1071 / ksvm kernlab. Mas não tenho certeza se estou fazendo isso corretamente. Existe algum exemplo de trabalho para SVM de uma classe em R? Além disso, Estou dando uma grande matriz de preditores como X. Como é...

8
Probabilidades de regressão logística

Eu construí um modelo de regressão logística em R e, embora o resultado pareça ser satisfatório até certo ponto, há uma pergunta que não consigo resolver. Não tenho certeza se minha abordagem está correta. Eu sei que o objetivo geral do modelo logístico é prever a probabilidade de sucesso de uma...

8
Quando n aumenta, o valor t aumenta em um teste de hipótese, mas a tabela t é exatamente o oposto. Por quê?

A fórmula para em um teste de hipótese é dada por: t = ˉ X - μtttt = X¯- μσ^/ n--√.t=X¯−μσ^/n. t=\frac{\bar{X}-\mu}{\hat \sigma/\sqrt{n}}. Quando aumenta, o valor aumenta de acordo com a fórmula acima. Mas por que o valor crítico diminui na tabela medida que (que é uma função de ) aumenta?t t t...

8
Função de probabilidade de dados truncados

Estou com problemas para entender o conceito e a derivação da probabilidade de dados truncados. Por exemplo, se eu quiser encontrar a função de probabilidade com base em uma amostra de uma distribuição, mas ao retirar uma amostra da distribuição, observo os valores truncados (onde há um corte de ,...

8
Causa de singularidade na matriz para regressão quantílica

Estou realizando regressões quantílicas em R usando o pacote quantreg. Meu conjunto de dados inclui 12.328 observações, variando de 0,12 a 330. Os pontos no tempo para meus dados não são exatamente contínuos; todos os dados se enquadram em uma das dezenas de posições que variam de 73 a 397. Quando...

8
Teste Qui-quadrado com 0 valores esperados

Minha tabela de contingência: heterozygous homozygous.minor homozygous.major observed 2 0 3 expected 0 0 5 A população esperada é composta apenas pelo genótipo AA, mas na população observada observamos 2 genótipos AB. Para calcular o Chi-sq para isso, eu ignoraria os dois casos em que o...