Estou confuso entre os dois termos "função geradora de probabilidade" e "função geradora de momento". Como esses termos
Estou confuso entre os dois termos "função geradora de probabilidade" e "função geradora de momento". Como esses termos
O teorema de Halmos-Savage diz que, para um modelo estatístico dominado ( Ω , A , P ),(Ω,A,P)(\Omega, \mathscr A, \mathscr P) uma estatística T : ( Ω , A , P ) → ( Ω ′ , A ′ )T:(Ω,A,P)→(Ω′,A′)T: (\Omega, \mathscr A, \mathscr P)\to(\Omega', \mathscr A') é suficiente se (e somente se) para todos { P...
Estou com problemas para entender estatísticas completas suficientes? Seja uma estatística suficiente.T= Σ xEuT=ΣxEuT=\Sigma x_i Se com probabilidade 1, para alguma função , então é uma estatística suficiente.E[ g( T) ] = 0E[g(T)]=0 0E[g(T)]=0ggg Mas o que isso significa? Eu já vi exemplos de...
Em " Redes de crenças profundas convolucionais para o aprendizado não supervisionado e escalável de representações hierárquicas ", de Lee et. al. ( PDF ) São propostos DBNs convolucionais. O método também é avaliado para a classificação de imagens. Isso parece lógico, pois existem recursos naturais...
Atualmente, estou participando do curso Uma Introdução ao Gerenciamento de Operações em Coursera.org. Em algum momento do curso, o professor começou a lidar com variações no tempo das operações. A medida que ele usa é o coeficiente de variação , a razão entre o desvio padrão e a...
Para não estatísticos como eu, é muito difícil capturar a ideia de VImétrica (variação de informação) mesmo depois de ler o artigo relevante de Marina Melia " Comparando agrupamentos - uma distância baseada em informação " (Journal of Multivariate Analysis, 2007). De fato, não estou familiarizado...
alguém pode fornecer uma intuição sobre por que os momentos mais altos de uma distribuição de probabilidade p(x)como o terceiro e o quarto momentos correspondem à assimetria e curtose, respectivamente? especificamente, por que o desvio da média aumentada para a 3ª ou a 4ª potência acaba se...
A ideia por trás da Rede Neural Recorrente (RNN) é clara para mim. Entendo da seguinte maneira: Temos uma sequência de observações ( ) (ou, em outras palavras, séries temporais multivariadas). Cada observação única é um vetor numérico dimensional. No modelo RNN, assumimos que a próxima observação é...
O mgcvpacote para Rpossui duas funções para ajustar as interações do produto tensorial: te()e ti(). Entendo a divisão básica do trabalho entre os dois (ajustando uma interação não linear versus decompondo essa interação em efeitos principais e uma interação). O que não entendo é o porquê te(x1,...
Por que os valores de p e as estatísticas do teste ks diminuem com o aumento do tamanho da amostra? Tome este código Python como um exemplo: import numpy as np from scipy.stats import norm, ks_2samp np.random.seed(0) for n in [10, 100, 1000, 10000, 100000, 1000000]: x = norm(0, 4).rvs(n) y =...
Eu sei de estudos anteriores que Var(A+B)=Var(A)+Var(B)+2Cov(A,B)Var(A+B)=Var(A)+Var(B)+2Cov(A,B)Var(A+B) = Var(A) + Var(B) + 2 Cov (A,B) No entanto, não entendo por que isso acontece. Percebo que o efeito será "aumentar" a variação quando A e B covarem altamente. Faz sentido que, ao criar um...
No livro que estou lendo, eles usam definição positiva (definição semi-positiva) para comparar duas matrizes de covariância. A idéia é que, se é pd então é menor do que . Mas estou lutando para conseguir a intuição desse relacionamento?A - BA−BA-BBBBUMAAA Há um tópico semelhante...
Em um conjunto de problemas, provei esse "lema", cujo resultado não é intuitivo para mim. é uma distribuição normal padrão em um modelo censurado.ZZZ Formalmente, , e Z = m um x ( Z * , c ) . Então, E [ Z | Z > c ]Z∗∼ Nou r m ( 0 , σ2)Z∗∼Norm(0,σ2)Z^* \sim Norm(0, \sigma^2)Z= m a x ( Z∗, C...
A forma fechada de w na regressão linear pode ser escrita como W^= ( XTX)- 1XTyw^=(XTX)−1XTy\hat{w}=(X^TX)^{-1}X^Ty Como podemos explicar intuitivamente o papel de nessa equação?( XTX)-
Alguém pode fornecer uma explicação simples (leiga) da relação entre as distribuições de Pareto e o Teorema do Limite Central (por exemplo, aplica-se? Por que / por que não?)? Estou tentando entender a seguinte declaração: "o Teorema do Limite Central não funciona com todas as distribuições....
Tentei implementar uma estimativa numérica da divergência Kullback-Leibler para duas amostras. Para depurar a implementação, extrair as amostras de duas distribuições normais e .N(0,1)N(0,1)\mathcal N (0,1)N(1,2)N(1,2)\mathcal N (1,2) Para uma estimativa simples, gerei dois histogramas e tentei...
Entendo a mecânica de calcular os pesos usando as pontuações de propensão : e aplicando os pesos em uma análise de regressão, e que os pesos servem para "controlar" ou desassociar os efeitos das covariáveis nas populações dos grupos de tratamento e controle com a variável de...
O erro padrão de uma proporção será o maior que pode ser para um dado N quando a proporção em questão for 0,5 e fica menor quanto mais a proporção for de 0,5. Eu posso ver por que isso acontece quando olho para a equação para o erro padrão de uma proporção, mas não posso explicar mais isso. Existe...
Apesar de várias tentativas de ler sobre o bootstrap, pareço sempre bater em uma parede de tijolos. Gostaria de saber se alguém pode dar uma definição razoavelmente não técnica de bootstrapping? Sei que não é possível neste fórum fornecer detalhes suficientes para que eu possa entendê-lo...
Esta pergunta já tem respostas aqui : Que tipo de informação é Fisher? (3 respostas) Fechado há 7 meses . A Wikipedia nos diz que a pontuação desempenha um papel importante na desigualdade de Cramér – Rao. Também define a