Alguém pode explicar estatísticas suficientes em termos muito básicos? Eu tenho experiência em engenharia e já passei por muitas coisas, mas não consegui encontrar uma explicação intuitiva.
fonte
Alguém pode explicar estatísticas suficientes em termos muito básicos? Eu tenho experiência em engenharia e já passei por muitas coisas, mas não consegui encontrar uma explicação intuitiva.
Uma estatística suficiente resume todas as informações contidas em uma amostra para que você faça o mesmo parâmetro estimar se fornecemos a amostra ou apenas a própria estatística. É a redução dos dados sem perda de informações.
Aqui está um exemplo. Suponha que tenha uma distribuição simétrica em torno de zero. Em vez de fornecer uma amostra, entrego uma amostra de valores absolutos (essa é a estatística). Você não consegue ver o sinal. Mas você sabe que a distribuição é simétrica; portanto, para um determinado valor , e são igualmente prováveis (a probabilidade condicional é ). Então você pode jogar uma moeda justa. Se aparecer, faça negativo. Se caudas, faça positivo. Isto dá-lhe uma amostra de , que tem a mesma distribuição que os dados originais . Você basicamente conseguiu reconstruir os dados a partir da estatística. Isso é o que a torna suficiente.x - x x 0,5 x X ′ X
Em termos bayesianos, você tem alguma propriedade observávelX e um parâmetro Θ . A distribuição conjunta para X,Θ é especificada, mas fatorada como a distribuição condicional de X∣Θ e a distribuição anterior de Θ . Uma estatística T é suficiente para este modelo se e apenas se a distribuição a posteriori de Θ∣X é a mesma que a de Θ∣T(X) , para cada distribuição antes de Θ . Em palavras, sua incerteza atualizada sobre Θ depois de saber o valor deX é igual à sua incerteza atualizada sobreΘ depois de conhecer o valor deT( X) ,qualquer informação anterior que você tenha sobre Θ . Lembre-se de que suficiência é um conceito dependente do modelo.
fonte
Digamos que você tenha uma moeda e não saiba se é justo ou não. Em outras palavras, ele tem probabilidadep de subir cabeças ( H ) e 1−p de subir caudas ( T ), e você não sabe o valor de p .
Você tenta ter uma idéia do valor dep jogando a moeda várias vezes, digamos n vezes.
Digamos quen=5 e o resultado que você obtém é a sequência (H,H,T,H,T) .
Agora você quer que seu amigo estatístico estime o valor dep para você e talvez diga se a moeda provavelmente será justa ou não. Que informações você precisa contar para que eles possam fazer seus cálculos e tirar suas conclusões?
Você poderia contar a eles todos os dados, ou seja(H,H,T,H,T) . Isso é necessário? Você poderia resumir esses dados sem perder nenhuma informação relevante?
É claro que a ordem dos lançamentos de moedas é irrelevante, porque você estava fazendo a mesma coisa para cada lançamento de moeda, e os lançamentos de moedas não se influenciavam. Se o resultado fosse(H,H,T,T,H) , por exemplo, nossas conclusões não serão diferentes. Daqui resulta que tudo o que você realmente precisa dizer ao seu amigo estatístico é a contagem de quantas cabeças havia.
Expressamos isso dizendo que o número de cabeças é uma estatística suficiente para p .
Este exemplo fornece o sabor do conceito. Leia se você gostaria de ver como ele se conecta à definição formal.
Formalmente, uma estatística é suficiente para um parâmetro se, dado o valor da estatística, a distribuição de probabilidade dos resultados não envolver o parâmetro.
Neste exemplo, antes de sabermos o número de cabeças, a probabilidade de qualquer resultado épnumber of heads(1−p)n - number of heads . Obviamente, isso depende da p .
fonte