Acabei de começar a estudar estatística e não consigo entender intuitivamente a suficiência. Para ser mais preciso, não consigo entender como mostrar que os dois parágrafos a seguir são equivalentes:
Grosso modo, dado um conjunto X de dados independentes distribuídos de forma idêntica condicionados a um parâmetro desconhecido θ, uma estatística suficiente é uma função T (X) cujo valor contém todas as informações necessárias para calcular qualquer estimativa do parâmetro.
Uma estatística T (X) é suficiente para o parâmetro subjacente θ precisamente se a distribuição de probabilidade condicional dos dados X, dada a estatística T (X), não depende do parâmetro θ.
(Peguei as citações da estatística suficiente )
Embora eu compreenda a segunda declaração e possa usar o teorema da fatoração para mostrar se uma determinada estatística é suficiente, não consigo entender por que uma estatística com essa propriedade também tem a propriedade de "conter todas as informações necessárias para calcular qualquer estimativa do parâmetro ". Não estou procurando uma prova formal, que ajude a refinar meu entendimento, gostaria de obter uma explicação intuitiva sobre por que as duas declarações são equivalentes.
Para recapitular, minhas perguntas são: por que as duas declarações são equivalentes? Alguém poderia fornecer uma explicação intuitiva para sua equivalência?
fonte
Respostas:
Após os comentários de @whuber e @Kamster, eu provavelmente entendi melhor. Quando dizemos que uma estatística suficiente contém todas as informações necessárias para calcular qualquer estimativa do parâmetro, o que realmente queremos dizer é que basta calcular o estimador de probabilidade máxima (que é uma função de todas as estatísticas suficientes).
Dado que estou respondendo à minha própria pergunta e, portanto, não tenho 100% de certeza da resposta, não a marcarei como correta até receber algum feedback. Por favor, adicione qualquer comentário e voto negativo se você acha que estou errado / impreciso / etc ...
(Deixe-me saber se isso não é compatível com a etiqueta SE, sendo esta minha primeira pergunta, imploro sua clemência se estou violando alguma regra)
fonte
Enquanto estudava suficiência, deparei-me com a sua pergunta, porque também queria entender a intuição sobre o que reuni. É o que proponho.
Seja uma amostra aleatória de uma distribuição de Poisson com média θ > 0 .X1,…,Xn θ>0
Sabemos que é uma estatística suficiente para θ , já que a distribuição condicional de X 1 , ... , X n dada T ( X ) é livre de θ , em outras palavras, não depende de θ .T(X)=∑ni=1Xi θ X1,…,Xn T(X) θ θ
Agora, o estatístico sabe que X 1 , ... , X n i . i . d ~ P o i s s o n ( 4 ) e cria n = 400A X1,…,Xn∼i.i.dPoisson(4) n=400 valores aleatórios deste distribuição:
Para os valores que o estatístico criou, ele pega a soma e pergunta ao estatísticoA o seguinte:B
"Eu tenho esses valores de amostra retirados de uma distribuição Poisson. Sabendo que ∑ n i = 1 x i = y = 4068 , o que você pode me dizer sobre essa distribuição?"x1,…,xn ∑ni=1xi=y=4068
Portanto, sabendo apenas que (e o fato de a amostra ter surgido de uma distribuição de Poisson) é suficiente para o estatístico B dizer alguma coisa sobre θ ? Como sabemos que esta é uma estatística suficiente, sabemos que a resposta é "sim".∑ni=1xi=y=4068 B θ
Para obter alguma intuição sobre o significado disso, vamos fazer o seguinte (extraído de "Introduction to Mathematics Statistics" de Hogg & Mckean & Craig, 7ª edição, exercício 7.1.9):
sinceY=∑Zi has a Poisson distribution with mean nθ . The latter distribution is multinomial with y independent trials, each terminating in one of n mutually exclusive and exhaustive ways, each of which has the same probability 1/n . Accordingly, B runs such a multinomial experiment y independent trials and obtains z1,…,zn ."
This is what the exercise states. So, let's do exactly that:
And let's see whatZ looks like (I'm also plotting the real density of Poisson(4) for k=0,1,…,13 - anything above 13 is pratically zero -, for comparison):
So, knowing nothing aboutθ and knowing only the sufficient statistic Y=∑Xi we were able to recriate a "distribution" that looks a lot like a Poisson(4) distribution (as n increases, the two curves become more similar).
Now, comparingX and Z|y :
We see that they are pretty similar, as well (as expected)
So, "for the purpose of making a statistical decision, we can ignore the individual random variablesXi and base the decision entirely on the Y=X1+X2+⋯+Xn " (Ash, R. "Statistical Inference: A concise course", page 59).
fonte
Let me give another perspective that may help. This is also qualitative, but there is a rigorous version of that particularly important in Information Theory - known as Markov property.
In the beginning, we have two objects, data (coming from a Random Variable, call it X) and parameter,θ (another rv, implicitly assumed since we are talking about its estimator). These two, are assumed to be dependent (otherwise, there is no point in trying to estimate one from the other). Now, the third object enters the game, Sufficient Statistic, T. The intuitive idea when we say T is enough to estimate θ really means that if we know T (ie conditioned on T), X provides no additional info, that is, X and θ are independent. In other word, knowledge of X is equivalent to knowledge of T as far as estimation of θ is concerned. Note that in probabilities are where all the uncertainties are captured, and hence "any estimate" when (conditional) probabilities are independent (eg conditional densities factorize).
fonte