Meu problema de lição de casa é dar um contra-exemplo em que uma determinada estatística não é, em geral, mínima o suficiente. Independentemente dos detalhes de encontrar um contra-exemplo específico para essa estatística específica, isso levanta a seguinte questão para mim:
Pergunta: Como se pode formular a condição de não ser uma estatística mínima suficiente de uma maneira que seja possível provar que uma estatística suficiente satisfaz a condição?
Trabalho até agora: A definição de estatística mínima suficiente no meu livro (Keener, Estatística Teórica: Tópicos para um Curso Básico ) é a seguinte:
- Uma estatística é o mínimo suficiente sse é suficiente e, para cada estatística suficiente existe uma função tais que ae .T T ˜ T f T = f ( ˜ T ) P
T T T~ f T=f(T~) P
Observe que (ae ) significa que o conjunto em que a igualdade falha é um conjunto nulo para todas as distribuições de probabilidade no modelo estatístico , .P P P P ∈ P
Tentando negar isso, chego a:
- Uma estatística não é mínima o suficiente se pelo menos um dos seguintes itens for válido:
T
T - T
T não é suficiente. - Existe, pelo menos, uma estatística suficiente para os quais há nenhuma função tais que ae P .˜ T
T~ f T = f ( ˜ T )f T=f(T~) P
- T
Portanto, se uma estatística é suficiente, parece que seria extremamente difícil mostrar que ela não é mínima o suficiente, mesmo que não seja suficiente. (Porque seria preciso mostrar 2. em vez de 1., uma vez 1. é falso - mas 2. seria muito difícil mostrar porque, mesmo que se tenha uma estatística counterexample ~ T em mente, ainda se tem para mostrar a inexistência de qualquer função com essa propriedade. E a inexistência é muitas vezes difícil de mostrar.)
Meu livro não fornece condições equivalentes (isto é, necessárias e suficientes) para que uma estatística seja uma estatística mínima suficiente. Nem sequer fornece condições alternativas necessárias para que uma estatística seja uma estatística suficiente mínima (além de ser uma estatística suficiente).
Portanto, para o meu problema de lição de casa, se eu não posso mostrar que a estatística não é suficiente (porque é), então como eu poderia mostrar que não é suficiente o suficiente?
fonte
Respostas:
Como você declarou:
Assim, por exemplo, no caso em que X 1 , . . . . , X nX1,....,Xn são variáveis aleatórias independentes de Bernoulli. Podemos provar que ( x 1 , . . . . , X n )(x1,....,xn) não é minimamente suficiente, mostrando que não é uma função de Σ x i∑xi . Isso é óbvio, já que a função deve mapear 11 para ambos ( 1 , 0 , 0 ... , 0 , 0 , 0 )(1,0,0...,0,0,0) e( 0 , 0 , 0 ... , 0 , 0 , 1 )(0,0,0...,0,0,1) .
fonte
Eu estive pensando sobre esse problema um pouco mais recentemente, e aqui está o que eu inventei.
Deixe Ω ser um espaço de probabilidade, então uma variável aleatória X é uma função mensurável X : Ω → X , onde X é um espaço mensurável ( X tem um designado σ -álgebra, e X é mensurável no que diz respeito a esta σ -álgebra eo σ -álgebra em Ω ). A distribuição de X é apenas a medida de retração em X , ou seja, P X ( A ) = P Ω ( X -Ω X X: Ω → X X X σ X σ σ Ω X X 1 (A)). Então umaestatísticadeXé qualquer função mensurável *f: X → Y , onde Y é outro espaço mensurável arbitrário.PX( A ) = PΩ( X- 1( A ) ) X f:X→Y Y
Tanto quanto posso dizer, parece significar que existe uma função ** mensurável h : Y → Z tal que g = h ∘ f , ou seja, que g pode ser fatorado por f .h:Y→Z g=h∘f g f
(Em outras palavras, " g deve ser bem definido como uma função em f ( X ) ⊆ Y ".)g f( X) ⊆ Y
Então, quando é possível esse fatoramento? Vamos pensar em termos de relações de equivalência. Especificamente, defina a relação de equivalência ∼ f em X por x 1 ∼ f x 2∼f X ⟺f ( x 1 ) = f ( x 2 ) , da mesma forma, defina a relação de equivalência ∼ g em X por x 1 ∼ g x 2x1∼fx2⟺f( x1) = f( x2) ∼g X ⟺g ( x 1 ) = g ( x 2 ) .x1∼gx2⟺g( x1) = g( x2)
Em seguida, a fim de g a ser factorável por F , as relações de equivalência ~ f e ~ g necessidade de ser compatíveis uns com os outros, no sentido em que, para qualquer *** x 1 , x 2 ∈ X , x 1 ~ f x 2g f ∼f ∼g x1, x2∈ X ⟹x 1 ∼ g x 2 , ou seja, g não pode pegar dois elementos equivalentes em f e mapeá-los para valores que não são equivalentes em g , ou seja, " g não pode desfazer a redução de informações anteriormente executada por f ".x1∼fx2⟹x1∼gx2 g f g g f
Em outras palavras, g deve ser bem definido como uma função em X / ∼ f ≅ f ( X ) , ou seja, deve existir uma função ˜ g : X / ∼ f → Z tal que g = ˜ g ∘ π f , onde π f é a projeção canônica X → X / ∼ f . (Para aqueles desconfortáveis com o absurdo abstrato, π f é essencialmente f , eg X/ ∼f≅f( X) g~: X/ ∼f→ Z g= g~∘ πf πf X→ X/ ∼f πf f ˜ g é essencialmenteh. A formulação acima apenas torna as analogias com outras situações mais claras.)g~ h
Por exemplo, considere X = Y = Z = R e X uma variável aleatória arbitrária com valor real e, em seguida, g : x ↦ x 2 pode ser escrito como uma função de f : x ↦ x , mas não vice-versa, porque x 1 = x 2X= Y= Z= R X g:x↦x2 f:x↦x ⟹x 2 1 = x 2 2 , mas 1 2 = ( - 1 ) 2 mas 1 ≠ - 1 .x1=x2⟹x21=x22 12=(−1)2 1≠−1
Em particular, suponha que toda classe de equivalência em ∼ f seja um singleton (isto é, f é injetivo ). Então g sempre pode ser escrito como uma função de f , pois X / ∼ f ≅ X , ou seja, f ( x 1 ) = f ( x 2 )∼f f g f X/∼f≅X ⟹x 1 = x 2 significa que x 1 = x 2f(x1)=f(x2)⟹x1=x2 ⟺f ( x 1 ) = f ( x 2 ) (em geral, para f não necessariamente injetável, apenas uma direção vale), portanto nossa condição se torna x 1 = x 2x1=x2⟺f(x1)=f(x2) f ⟹g ( x 1 ) = g ( x 2 ) , que é trivialmente satisfeita paraqualquer g : X → Z . (Para definir h , ele pode fazer o que quiser em Y ∖ f ( X ) desde que seja mensurável e, em seguida, para qualquer y ∈ f ( X ) , ou seja, tal que y = f ( x ) para alguns x ∈ X , defina h para ser hx1=x2⟹g(x1)=g(x2) g:X→Z h Y∖f(X) y∈f(X) y=f(x) x∈X h : y = f ( x ) ↦ g ( x ) . Isso é bem definido quando f é injetivo, porque existe umúnico x ∈ X tal que f ( x ) = y . De maneira mais geral, isso é definido apenas quando, independentemente de qual x escolhemos em f - 1 ( y ) , g ( x ) ainda é o mesmo valor, ou seja, f ( x 1 ) = fh:y=f(x)↦g(x) f x∈X f(x)=y x f−1(y) g(x) ( x 2 ) ( = y ) ⟹g ( x 1 ) = g ( x 2 ) .)f(x1)=f(x2) (=y)⟹g(x1)=g(x2)
Além disso, olhando o Teorema 3.11 em Keener, sua declaração é meio desajeitada, mas pensando nos termos acima, acredito que pode ser reescrita como:
A partir disso, fica imediatamente claro que a razão de verossimilhança deve ser por si só mínima o suficiente.
Isso também leva à conclusão de que:
Portanto, a condição não é tão difícil de mostrar como eu pensava.
* Keener não trata da questão de saber se uma estatística precisa ser uma função mensurável ou apenas uma função arbitrária ou não. No entanto, tenho certeza de que uma estatística deve ser uma função mensurável, porque , caso contrário, não poderíamos definir uma distribuição para ela , ou seja, uma medida de retração.
** Se h não fosse mensurável, teríamos uma contradição porque f e g são mensuráveis e a composição de funções mensuráveis é novamente mensurável. No mínimo, h deve ser mensurável restrito a f ( X ) ⊆ Y , embora eu ache que isso significaria, na maioria dos casos razoáveis, que h teria que concordar com f ( X ) com uma função mensurável em todo Y (pegue h | f ( X ) em f ( X )h f g h f(X)⊆Y h f(X) Y h|f(X) f(X) e, por exemplo, z em Y ∖ f ( X ) se existir um ponto mensurável z ∈ Z , observe que f ( X ) e Y ∖ f ( X ) devem ser mensuráveis em Y ), de modo que o wlog h possa ser considerado mensurável em todos Y .z Y∖f(X) z∈Z f(X) Y∖f(X) Y h Y
*** Pelo menos isso é necessário e suficiente para a existência de uma função arbitrária fatorando g e acima de f , e acho que ** implica que, se existe uma função arbitrária, essa função também deve ser mensurável, uma vez que f e g são, ou seja, seria realmente uma estatística Y → Z .g f f g Y→Z
**** A condição dada é equivalente a T ser suficiente pelo teorema da fatoração, 3.6.T
fonte