Existe uma prova matemática formal que a solução para o tanque problema alemão é uma função única a parâmetros k (número de amostras observadas) e m (valor máximo entre as amostras observadas)? Em outras palavras, é possível provar que a solução é independente dos outros valores da amostra além do valor máximo?
mathematical-statistics
sufficient-statistics
Bogdan Alexandru
fonte
fonte
Respostas:
Probabilidade
Problemas comuns na teoria da probabilidade referem-se à probabilidade das observações dado um determinado modelo e dados aos parâmetros (vamos chamá-los ) envolvidos. Por exemplo, as probabilidades de situações específicas em jogos de cartas ou dados são muitas vezes muito diretas.x1 1, x2, . . . , xn θ
No entanto, em muitas situações práticas, estamos lidando com uma situação inversa ( estatística inferencial ). Ou seja: a observação é fornecida e agora o modelo é desconhecido , ou pelo menos não conhecemos certos parâmetros .x1 1, x2, . . . , xk θθ
Nesse tipo de problema, geralmente nos referimos a um termo chamado probabilidade dos parâmetros , que é uma taxa de crença em um parâmetro específico com as observações . Este termo é expresso como proporcional à probabilidade das observações assumindo que um parâmetro de modelo seria hipoteticamente verdadeiro.L ( θ ) θ x1 1, x2, . . xk x1 1, x2, . . xk θ L (θ, x1 1, x2, . . xk) Α observações probabilidade x1 1, x2, . . xk dado θ
Para um dado valor de parâmetro mais provável é uma determinada observação é (relativa à probabilidade com outros valores de parâmetro), mais a observação suporta esse parâmetro específico (ou teoria / hipótese que assume esse parâmetro) . Uma probabilidade (relativa) alta reforçará nossas crenças sobre esse valor de parâmetro (há muito mais filosófico a dizer sobre isso).θ x1 1, x2, . . xn
Probabilidade no problema do tanque alemão
Agora, para o problema do tanque alemão, a função de probabilidade para um conjunto de amostras é:x1 1, x2, . . xk
Se você observa amostras {1, 2, 10} ou amostras {8, 9, 10} não deve importar quando as amostras são consideradas de uma distribuição uniforme com o parâmetro . Ambas as amostras são igualmente prováveis com probabilidade e, usando a idéia de probabilidade, uma amostra não conta mais sobre o parâmetro que a outra amostra.θ ( θ3)- 1 θ
Os altos valores {8, 9, 10} podem fazer você pensar / acreditar que deve ser maior. Porém, é apenas o valor {10} que realmente fornece informações relevantes sobre a probabilidade de (o valor 10 indica que será dez ou mais alto, os outros valores 8 e 9 não contribuem com nada para essas informações )θ θ θθ θ
Teorema de fatoração de Fisher Neyman
Este teorema diz que uma certa estatística (ou seja, alguma função das observações, como média, mediana ou, no máximo, no problema do tanque alemão) é suficiente (contém todas as informações) quando você pode fatorar, na função de probabilidade, os termos que dependem das outras observações , de modo que esse fator não dependa dos parâmetros e (e a parte da função de probabilidade que relaciona os dados com os valores hipotéticos dos parâmetros depende apenas da estatística, mas não de todo o dado / observação).T( x1 1, x2, … , Xk) x1 1, x2, … , Xk θ x1 1, x2, … , Xk
O caso do problema do tanque alemão é simples. Você pode ver acima que a expressão inteira para a Probabilidade acima já depende apenas da estatística e o restante dos valores não importa.max ( x1 1, x2, . . xk) x1 1, x2, . . xk
Joguinho como exemplo
Digamos que jogamos repetidamente o seguinte jogo: é uma variável aleatória e é desenhada com probabilidade igual 100 ou 110. Em seguida, desenhamos uma amostra .θ x1 1, x2, . . . , xk
Queremos escolher uma estratégia para adivinhar , com base nos que maximizem nossa probabilidade de ter o palpite correto de .θ x1 1, x2, . . . , xk θ
A estratégia adequada será escolher 100, a menos que um dos números da amostra seja> 100.
Poderíamos ser tentados a escolher o valor do parâmetro 110 já que muitos dos tendem a ser todos os valores altos próximos de cem (mas nenhum exatamente acima de cem), mas isso seria errado. A probabilidade de tal observação será maior quando o valor verdadeiro do parâmetro for 100 do que quando for 110. Portanto, se adivinharmos, nessa situação, 100 como o valor do parâmetro, teremos menos probabilidade de cometer um erro (porque o A situação com esses valores altos próximos de cem, mas ainda abaixo dele, ocorre com mais frequência no caso em que o valor verdadeiro é 100 e não no caso em que o valor verdadeiro é 110).x1 1, x2, . . . , xk
fonte
Você não apresentou uma formulação precisa do "problema"; portanto, não está exatamente claro o que você está pedindo para ser provado. Do ponto de vista bayesiano, a probabilidade posterior depende de todos os dados. No entanto, cada observação de um número de série específico suportará mais esse número. Ou seja, dada qualquer observação , a razão de chances entre posterior e anterior será maior para a hipótese "o número real de tanques é " do que para "o número real de tanques é [número diferente de ]". Assim, se começarmos com um uniforme anterior, então terá o posterior mais alto depois de ver essa observação.n n n n
Considere um caso em que temos o ponto de dados e hipóteses . Obviamente, o posterior para é zero. E nossos posteriores para serão maiores que os anteriores. A razão para isso é que, no raciocínio bayesiano, a ausência de evidência é evidência de ausência. Sempre que temos uma oportunidade em que poderíamos ter feito uma observação que teria diminuído nossa probabilidade, mas não, a probabilidade aumenta. Como poderíamos ter visto , o que definiria nossos posteriores para como zero, o fato de não vermos significa que deveríamos aumentar nossos posteriores para13 N=10,13,15 N=10 N=13,15 16 N=13,15 N=13,15 . Mas observe que, quanto menor o número, mais números poderíamos ter visto que teriam excluído esse número. Para , que teria rejeitado essa hipótese depois de ver . Mas para , precisaríamos de pelo menos para rejeitar a hipótese. Como a hipótese é mais falsificável que , o fato de não termos falsificado é mais uma evidência de que não falsificar é uma evidência de .N=13 14,15,16,... N=15 16 N=13 N=15 N=13 N=13 N=15 N=15
Portanto, toda vez que vemos um ponto de dados, ele define o posterior de tudo abaixo dele como zero e aumenta o posterior de todo o resto, com números menores recebendo o maior impulso. Assim, o número que obtiver o maior aumento geral será o menor número cujo posterior não foi definido como zero, ou seja, o valor máximo das observações.
Números inferiores ao máximo afetam quanto maior um impulso obtém, mas não afeta a tendência geral do aumento máximo. Considere o exemplo acima, onde já vimos . Se o próximo número que vemos for , que efeito isso terá? Ajuda mais de , mas ambos os números já foram rejeitados, o que não é relevante. Ajuda mais de , mas já foram ajudadas a mais de , de modo que não afeta qual número foi mais ajudado.13 5 5 6 13 15 13 15
fonte