Estou tentando entender a seguinte prova de que o gaussiano tem entropia máxima. Como o passo estrelado faz sentido? Uma covariância específica apenas fixa o segundo momento. O que acontece com o terceiro, quarto, quinto momento,
Estou tentando entender a seguinte prova de que o gaussiano tem entropia máxima. Como o passo estrelado faz sentido? Uma covariância específica apenas fixa o segundo momento. O que acontece com o terceiro, quarto, quinto momento,
Imagine que um pesquisador esteja explorando um conjunto de dados e execute 1000 regressões diferentes e encontre uma relação interessante entre eles. Agora imagine outro pesquisador com os mesmos dados executando apenas 1 regressão, e é o mesmo que o outro pesquisador fez 1000 regressões para...
(Postei uma pergunta semelhante no math.se. ) Na geometria da informação, o determinante da matriz de informações de Fisher é uma forma de volume natural em um coletor estatístico, portanto, possui uma ótima interpretação geométrica. O fato de aparecer na definição de Jeffreys anterior, por...
Suponha que tenhamos um conjunto (mensurável e adequadamente comportado) S⊆B⊂RnS⊆B⊂RnS\subseteq B\subset\mathbb R^n , onde BBB é compacto. Além disso, suponha que possamos extrair amostras da distribuição uniforme sobre BBB na medida de Lebesgue λ(⋅)λ(⋅)\lambda(\cdot) e que conhecemos a medida...
Se quisermos calcular o efeito causal de em Y no gráfico causal abaixo, podemos usar os teoremas de ajuste da porta traseira e da porta da frente, ou seja, P ( y | do ( X = x ) ) = ∑ u P ( y | x , u ) P ( u )XXXYYYP( y| do (X= x ) ) = ∑vocêP( y| x,u)P( U )P(y|do(X=x))=∑uP(y|x,u)P(u)P(y |...
O teorema de Halmos-Savage diz que, para um modelo estatístico dominado ( Ω , A , P ),(Ω,A,P)(\Omega, \mathscr A, \mathscr P) uma estatística T : ( Ω , A , P ) → ( Ω ′ , A ′ )T:(Ω,A,P)→(Ω′,A′)T: (\Omega, \mathscr A, \mathscr P)\to(\Omega', \mathscr A') é suficiente se (e somente se) para todos { P...
Na Wikipedia, existe uma definição do Critério de Informação de Akaike (AIC) como AIC=2k−2logLAIC=2k−2logL AIC = 2k -2 \log L , onde kkk é o número de parâmetros e logLlogL\log L é a probabilidade de log do modelo. No entanto, os nossos notas Econometria na universidade um estado bem respeitado...
Quanto ao título, a idéia é usar informações mútuas, aqui e depois do IM, para estimar a "correlação" (definida como "o quanto eu sei sobre A quando conheço B") entre uma variável contínua e uma variável categórica. Em breve, vou lhe contar sobre o assunto, mas antes de aconselhá-lo a ler essa...
Deixe- denotam o risco de Bayes de um estimador δ com respeito a um prévio π , deixar Π denotar o conjunto de todos os antecedentes sobre o espaço de parâmetros Θ , e deixar Δ denotar o conjunto de todas as regras de decisão (possivelmente randomizados) .r(π,δ)r(π,δ)r(\pi,...
Estou com problemas para entender estatísticas completas suficientes? Seja uma estatística suficiente.T= Σ xEuT=ΣxEuT=\Sigma x_i Se com probabilidade 1, para alguma função , então é uma estatística suficiente.E[ g( T) ] = 0E[g(T)]=0 0E[g(T)]=0ggg Mas o que isso significa? Eu já vi exemplos de...
Nota: esta pergunta é um repost, pois minha pergunta anterior teve que ser excluída por razões legais. Ao comparar o PROC MIXED do SAS com a função lmedo nlmepacote no R, deparei-me com algumas diferenças bastante confusas. Mais especificamente, os graus de liberdade nos diferentes testes...
Gostaria de calcular a divergência de Jensen-Shannon para ele após três distribuições. O cálculo abaixo está correto? (Eu segui a fórmula JSD da wikipedia ): P1 a:1/2 b:1/2 c:0 P2 a:0 b:1/10 c:9/10 P3 a:1/3 b:1/3 c:1/3 All distributions have equal weights, ie 1/3. JSD(P1, P2, P3) = H[(1/6, 1/6,...
A chuva nunca estuda, por isso ela é completamente ignorante durante o meio do período, mesmo que consistindo apenas de perguntas Sim / Não. Felizmente, o professor de Rain permite que ela retome o mesmo intermediário quantas vezes quiser, mas ele apenas reporta a pontuação, para que Rain não saiba...
Eu tenho usado o método de extração de rede de backbone descrito neste documento: http://www.pnas.org/content/106/16/6483.abstract Basicamente, os autores propõem um método baseado em estatística que produz uma probabilidade, para cada aresta no gráfico, de que a aresta possa ter acontecido apenas...
Eu escrevi um programa para simular um embaralhamento de cartão overhand . Cada carta é numerada, com o naipe passando CLUBS, DIAMONDS, HEARTS, SPADESe a classificação de Dois a Dez, depois Valete, Rainha, Rei e Ás. Assim, o Two of Clubs tem um número 1, o Three of Clubs um 2 .... O Ace of Clubs...
Estou tentando traçar o limite de decisão de um algoritmo perceptron e estou realmente confuso sobre algumas coisas. Minhas instâncias de entrada estão no formato , basicamente uma instância de entrada 2D ( x 1 e x 2 ) e um valor alvo de classe binária ( y ) [1 ou 0].[ ( x1 1, x2) , y][(x1...
A forma mais simples da CLT teórica da informação é a seguinte: Seja como iid com média e variação . Seja a densidade da soma normalizada e seja a densidade gaussiana padrão. Então o CLT teórico da informação afirma que, se é finito para alguns n , então D (f_n \ | \ phi) \ para 0 como n \ to \...
Eu tenho uma dúvida muito básica. Desculpe se isso irrita poucos. Eu sei que o valor de Informações Mútuas deve ser maior que 0, mas deve ser menor que 1? É limitado por algum valor superior? Obrigado,
Poderia a informação mútua sobre a entropia conjunta: 0 ≤ I( X, Y)H( X, Y)≤ 10≤I(X,Y)H(X,Y)≤1 0 \leq \frac{I(X,Y)}{H(X,Y)} \leq 1 ser definido como: "A probabilidade de transmitir uma informação de X para Y"? Sinto muito por ser tão ingênuo, mas nunca estudei teoria da informação e estou apenas...
Minha cabeleireira Stacey sempre mostra uma cara feliz, mas costuma ficar estressada com a possibilidade de administrar seu tempo. Hoje, Stacey estava atrasada para minha consulta e se desculpou muito. Enquanto cortava o cabelo, eu me perguntava: quanto tempo deveriam durar as consultas regulares?...