Suponha que tenhamos um teste de conjunto de dados : 1 8 12 14 . . 19 Os . denota falta valores. Quando seria melhor usar a média dos valores não ausentes para imputá-los, em vez de assumir que os dados provêm de uma distribuição
Suponha que tenhamos um teste de conjunto de dados : 1 8 12 14 . . 19 Os . denota falta valores. Quando seria melhor usar a média dos valores não ausentes para imputá-los, em vez de assumir que os dados provêm de uma distribuição
Estou trabalhando na validação cruzada da previsão dos meus dados com 200 indivíduos e 1000 variáveis. Estou interessado em regressão de cume porque o número de variáveis (eu quero usar) é maior que o número de amostra. Então, eu quero usar estimadores de encolhimento. A seguir, são compostos...
Os resultados assintóticos não podem ser comprovados por simulação em computador, porque são afirmações que envolvem o conceito de infinito. Mas devemos ter a sensação de que as coisas realmente marcham da maneira que a teoria nos diz. Considere o resultado teórico limn → ∞P( | Xn| >ϵ)=0,ε...
Estou interessado em estimar uma taxa de risco ajustada, análoga a como se estima uma taxa de chances ajustada usando regressão logística. Alguma literatura (por exemplo, isso ) indica que o uso da regressão de Poisson com erros padrão de Huber-White é uma maneira baseada em modelo para fazer...
Minha pergunta é bem simples, mas essas são as que realmente me impressionam :) Não sei como avaliar se uma série temporal específica deve ser decomposta usando um método de decomposição aditiva ou multiplicativa. Eu sei que existem pistas visuais para diferenciá-las umas das outras, mas não as...
Atualmente, estou lendo suposições para correlações de Pearson. Uma suposição importante para o teste t subsequente parece ser que ambas as variáveis provêm de distribuições normais; se não o fizerem, é recomendável o uso de medidas alternativas, como o Spearman rho. A correlação de Spearman é...
Qual é a melhor maneira de preparar interações de recursos categóricos antes de se adaptar ao scikit-learn? Com statsmodelseu poderia dizer convenientemente em estilo R smf.ols(formula = 'depvar ~ C(var1)*C(var2)', data=df).fit()(o mesmo em Stata com regress depvar i.var1##i.var2). Pode...
Recentemente, afirmei corajosamente diante de um grupo de estudantes do oitavo ano razoavelmente inteligentes que a astronomia contribuiu muito para os fundamentos da estatística e que muitos conceitos estatísticos foram inventados para uso em astronomia. No entanto, olhando para trás, fiquei...
A distribuição Lognormal pertence ao domínio máximo de atração de Gumbel , onde: FlogN(x;μ,σ)=Φ(lnx−μσ)FlogN(x;μ,σ)=Φ(lnx−μσ)F^{logN}(x; \mu,\sigma)=\Phi\left(\frac{\ln x - \mu}{\sigma}\right), FGum(x;μ,β)=e−exp(−x−μβ)FGum(x;μ,β)=e−exp(−x−μβ)F^{Gum}(x;\mu,\beta) =...
Estou tentando entender como obter valores- para o teste unilateral de Kolmogorov-Smirnov e estou lutando para encontrar CDFs para e no caso de duas amostras. O abaixo é citado em alguns lugares como CDF para em um caso de uma
Geralmente é simples fazer um Power Analysiscálculo minimum sample size, especialmente em R, que é o meu ambiente de computação estatística preferido. No entanto, me pedem para realizar uma Análise de energia um pouco diferente de tudo o que fiz ou ao qual posso encontrar referência online....
Suponha que você tenha uma população com unidades, cada uma com uma variável aleatória . Você observa valores para qualquer unidade para a qual . Queremos uma estimativa de .X i isson Poisson ( λ ) n = N - n 0 X i > 0 λNNNXEuIsson Poisson ( λ )Xi∼Poisson(λ)X_i \sim \text{Poisson}(\lambda)n = N-...
Minha pergunta é geralmente sobre Decomposição de Valor Singular (SVD), e particularmente sobre Indexação Semântica Latente (LSI). Digamos, eu tenho que contém frequências de 5 palavras para 7 documentos.Aword×documentAword×document A_{word \times document} A = matrix(data=c(2,0,8,6,0,3,1,...
Qual é a importância da matriz de chapéu, , na análise de regressão?H=X(X′X)−1X′H=X(X′X)−1X′H=X(X^{\prime}X )^{-1}X^{\prime} É apenas para um cálculo mais
Se uma Análise Discriminante Linear de várias classes (ou às vezes também leio Análise Discriminante Múltipla) for usada para redução de dimensionalidade (ou transformação após redução de dimensionalidade via PCA), entendo que, em geral, uma "normalização do escore Z" (ou padronização) de os...
Quero gerar tempo de sobrevivência a partir de um modelo de riscos proporcionais de Cox que contenha covariáveis dependentes do tempo. O modelo é h(t|Xi)=h0(t)exp(γXi+αmi(t))h(t|Xi)=h0(t)exp(γXi+αmi(t))h(t|X_i) =h_0(t) \exp(\gamma X_i + \alpha m_{i}(t)) onde é gerado a partir do binômio...
Eu tenho 2 matrizes de correlação e B (usando o coeficiente de correlação linear de Pearson através do corrcoef de Matlab () ). Gostaria de quantificar quanto "mais correlação" A contém comparação com B . Existe alguma métrica ou teste padrão para isso?AAABBBAAABBB Por exemplo, a matriz de...
Eu tenho dados barulhentos de duas variáveis como esta. x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1),...
Estou tentando quantificar o grau de inflação (ou seja, qual a melhor forma de os pontos de dados observados se ajustarem ao esperado). Uma maneira é também olhar para o enredo QQ. Mas eu gostaria de calcular algum indicador numérico para inflação - significa que quão bem o observado se encaixa na...
Estou lutando com pontos de projeção na análise discriminante linear (LDA). Muitos livros sobre métodos estatísticos multivariados ilustram a idéia do LDA com a figura abaixo. A descrição do problema é a seguinte. Primeiro, precisamos traçar o limite da decisão, adicionar uma linha perpendicular...