Estatísticas e Big Data

9

Por que a eliminação para trás é justificada ao fazer regressão múltipla?

Isso não resulta em excesso de ajuste? Meus resultados seriam mais confiáveis se eu adicionasse um procedimento de canivete ou bootstrap como parte da

9

Por que as pontuações dos componentes principais não estão correlacionadas?

Suponha é uma matriz de dados centralizados na média. A matriz é , possui autovalores distintos e vetores próprios \ mathbf s_1 , \ mathbf s_2 ... \ mathbf s_m , ortogonais.S = cov ( A ) m × m m s 1UMAA\mathbf AS =cov( A )S=cov(A)\mathbf S=\text{cov}(\mathbf A)m × mm×mm\times mmmms1 1s1\mathbf s_1s...

correlation pca linear-algebra

9

Ao usar SVMs, por que preciso dimensionar os recursos?

De acordo com a documentação do objeto StandardScaler no scikit-learn: Por exemplo, muitos elementos usados na função objetivo de um algoritmo de aprendizado (como o kernel RBF do Support Vector Machines ou os regularizadores L1 e L2 dos modelos lineares) assumem que todos os recursos estão...

machine-learning svm standard-deviation mean references

9

Um estranho passo em uma prova sobre a distribuição de formas quadráticas

O teorema a seguir vem da 7ª edição da " Introdução à estatística matemática ", de Hogg, Craig e Mckean, e trata da condição necessária e suficiente para a independência de duas formas quadráticas de variáveis normais. Este é um extrato bastante longo, mas o que eu gostaria de receber ajuda é...

self-study mathematical-statistics quadratic-form

9

Seja um vetor aleatório. São considerados os momentos de ?

Estou aprendendo sobre a teoria dos modelos lineares agora, e uma coisa que acho surpreendente é que, embora esteja definido para um vetor aleatório , não há menção de outros momentos além da matriz de covariância.E [ Y ]E[Y]\mathbb{E}[\mathbf{Y}]Y = ⎡⎣⎢⎢⎢⎢y1y2⋮yn⎤⎦⎥⎥⎥⎥Y=[y1y2⋮yn]\mathbf{Y} =...

self-study moments

9

Esquemas alternativos de ponderação para meta-análise de efeitos aleatórios: desvio padrão ausente

Estou trabalhando em uma meta-análise de efeitos aleatórios, cobrindo uma série de estudos que não relatam desvios padrão; todos os estudos relatam o tamanho da amostra. Não acredito que seja possível aproximar ou imputar os dados ausentes do SD. Como uma metanálise que usa diferenças brutas (não...

stata missing-data meta-analysis meta-regression

9

Pacote Metafor: diagnóstico de viés e sensibilidade

Estou conduzindo uma meta-análise multinível que inclui alguns artigos com vários resultados. Portanto, eu estou usando a rma.mv()função Código de exemplo: test.main = rma.mv(yi,vi,random = ~1|ID, data = data) Eu tenho duas perguntas: Li em uma consulta anterior que, ao usar rma.mv(),...

meta-analysis sensitivity-analysis publication-bias funnel-plot

9

Regressão do laço de validação cruzada em R

A função R cv.glm (library: boot) calcula o erro de previsão de validação cruzada estimado em dobras K para modelos lineares generalizados e retorna delta. Faz sentido usar essa função para uma regressão do laço (library: glmnet) e, em caso afirmativo, como pode ser realizada? A biblioteca glmnet...

r regression cross-validation lasso glmnet

9

Como aplicar a regressão nos componentes principais para prever uma variável de saída?

Eu li sobre o básico da análise de componentes principais no tutorial1 , link1 e link2 . Eu tenho um conjunto de dados de 100 variáveis (incluindo a variável de saída Y), quero reduzir as variáveis para 40 pelo PCA e prever a variável Y usando essas 40 variáveis. Problema 1: Após obter os...

regression pca

9

O que é o "parâmetro do componente de variância" no modelo de efeito misto?

Na página 12 do livro de Bates sobre o modelo de efeito misto , ele descreve o modelo da seguinte maneira: Perto do final da captura de tela, ele menciona o fator de covariância relativo , dependendo do parâmetro variance-component , θΛθΛθ\Lambda_{\theta}θθ\theta sem explicar o que...

mixed-model references multilevel-analysis

9

Estimando modelos de regressão logística multinível

O seguinte modelo logístico multinível com uma variável explicativa no nível 1 (nível individual) e uma variável explicativa no nível 2 (nível do grupo): π 0 j = γ 00 + γ 01 z j + u 0 j … ( 2 ) π 1 j = γ 10 + γ 11 z j + u 1 j … ( 3

r logistic generalized-linear-model simulation multilevel-analysis

9

Estatística de pedidos para distribuição beta

Seja iid desenha a partir de . Como as estatísticas de pedidos mínimo e máximo são distribuídas, respectivamente? B e t a ( kx1,…,xnx1,…,xnx_1,\dots,x_nBeta(k2,k−p−12)Beta(k2,k−p−12)Beta\left(\frac{k}2,\frac{k-p-1}{2}\right) Eu apreciaria muito uma referência, se possível. Em geral, não estou...

order-statistics beta-distribution

9

Qual é a maneira correta de determinar quais recursos mais contribuíram para a previsão de um determinado vetor de entrada?

Estou usando regressão logística para classificação binária. Eu tenho um grande conjunto de dados (é altamente desequilibrado: 19: 1). Então, eu uso o scikit-learn LogisticRegression()para treinar 80% dos meus dados rotulados e validado com os outros 20% (observei a área sob ROC e o recall de...

regression logistic regression-coefficients

9

Se todos os 1000 pacientes de teste não são curados pelo medicamento, não podemos dizer que aceitamos a hipótese nula?

Em muitos lugares, li que nunca podemos dizer que "aceitamos" a hipótese nula. Em vez disso, devemos dizer que "falhamos em rejeitar" a hipótese nula. Mas não vejo como isso se enquadra neste exemplo simples: suponha que estamos testando um medicamento que deve curar completamente o diabetes em 24...

hypothesis-testing

9

Alternativas para o teste do qui-quadrado para independência em tabelas com mais de 2 x 2

Quais são algumas alternativas ao teste do qui-quadrado para variáveis categóricas com tabelas maiores que 2 x 2 e células com uma contagem menor que 5, se não quiser mesclar

chi-squared fishers-exact

9

Domesticar a inclinação… Por que existem tantas funções de inclinação?

Espero ter mais informações sobre os quatro tipos de inclinação dessa comunidade. Os tipos aos quais me refiro são mencionados na página de ajuda http://www.inside-r.org/packages/cran/e1071/docs/skewness . O método antigo não foi mencionado na página de ajuda, mas eu o

skewness

9

Função inversa de variância

Para um dado número constante (por exemplo, 4), é possível encontrar uma distribuição de probabilidade para , de modo que tenhamos ?rrrXXXV a r (X) =

distributions mathematical-statistics variance

9

É nominal, ordinal e binário para dados quantitativos, dados qualitativos ou ambos?

Estou me envolvendo com os tipos de dados e preciso de ajuda: Se você olhar a figura acima (tirada daqui ), ela tem os tipos de dados como este: Quantitativo (Discreto, Contínuo) Qualitativo (Nominal (N), Ordinal (O), Binário (B)). Mas se você olhar para a próxima foto ( daqui ), as...

categorical-data dataset ordinal-data binary-data

9

Diferença entre redes neurais atrasadas e redes neurais recorrentes

Eu gostaria de usar uma Rede Neural para prever séries temporais financeiras. Sou formado em TI e tenho algum conhecimento de redes neurais e tenho lido sobre isso: TDNN RNN Eu tenho procurado por pacotes R para eles e só encontrei um para RNN, o pacote RSNNS que tem implementações elman e...

time-series forecasting neural-networks finance

9

Variância de combinações lineares de variáveis aleatórias correlacionadas

Entendo a prova de que Var(aX+bY)=a2Var(X)+b2Var(Y)+2abCov(X,Y),Var(aX+bY)=a2Var(X)+b2Var(Y)+2abCov(X,Y),Var(aX+bY) = a^2Var(X) +b^2Var(Y) + 2abCov(X,Y), mas não sei Não entendo como provar a generalização para combinações lineares arbitrárias. Seja escalares para para que tenhamos um vetor , e...

mathematical-statistics variance