Esta pergunta é inspirada em um mini-jogo de Pokemon Soulsilver:
Imagine que há 15 bombas escondidas nessa área 5x6 (EDIT: máximo de 1 bomba / célula):
Agora, como você estimaria a probabilidade de encontrar uma bomba em um campo específico, considerando os totais de linha / coluna?
Se você olhar para a coluna 5 (total de bombas = 5), poderá pensar: Nesta coluna, a chance de encontrar uma bomba na linha 2 é o dobro da chance de encontrar uma na linha 1.
Essa suposição (incorreta) de proporcionalidade direta, que basicamente pode ser descrita como desenhar operações padrão de teste de independência (como no Chi-Square) no contexto errado, levaria às seguintes estimativas:
Como você pode ver, a proporcionalidade direta leva a estimativas de probabilidade acima de 100%, e mesmo antes disso, estaria errado.
Por isso, realizei uma simulação computacional de todas as permutações possíveis, o que levou a 276 possibilidades únicas de colocar 15 bombas. (dados totais de linha e coluna)
Aqui está a média das 276 soluções:
Esta é a solução correta, mas devido ao trabalho computacional exponencial, eu gostaria de encontrar um método de estimativa.
Minha pergunta agora é: Existe um método estatístico estabelecido para estimar isso? Eu queria saber se este era um problema conhecido, como é chamado e se existem documentos / sites que você poderia recomendar!
fonte
r2dtable
(e também usado porchisq.test
efisher.test
em algumas circunstâncias).Respostas:
O espaço da solução (configurações válidas de bombas) pode ser visto como o conjunto de gráficos bipartidos com uma determinada sequência de graus. (A grade é a matriz da biadjacência.) A geração de uma distribuição uniforme nesse espaço pode ser abordada usando os métodos de Markov Chain Monte Carlo (MCMC): toda solução pode ser obtida de qualquer outra usando uma sequência de "interruptores", que na sua formulação de quebra-cabeças parece:
Está provado que isso possui uma propriedade de mistura rápida. Portanto, iniciando com qualquer configuração válida e definindo um MCMC em execução por um tempo, você deve terminar com uma aproximação da distribuição uniforme das soluções, que pode ser calculada em termos médios para as probabilidades que procura.
Estou apenas vagamente familiarizado com essas abordagens e seus aspectos computacionais, mas pelo menos dessa maneira você evita enumerar qualquer uma das não soluções.
Um começo para a literatura sobre o tema:
https://faculty.math.illinois.edu/~mlavrov/seminar/2018-erdos.pdf
https://arxiv.org/pdf/1701.07101.pdf
https: // www. tandfonline.com/doi/abs/10.1198/016214504000001303
fonte
Não há solução única
Eu não acho que a verdadeira distribuição discreta de probabilidade possa ser recuperada, a menos que você faça algumas suposições adicionais. Sua situação é basicamente um problema de recuperar a distribuição conjunta dos marginais. Às vezes, é resolvido usando cópulas na indústria, por exemplo, gerenciamento de risco financeiro, mas geralmente para distribuições contínuas.
Presença, Independente, AS 205
No problema de presença, não é permitido mais do que uma bomba em uma célula. Novamente, para o caso especial de independência, existe uma solução computacional relativamente eficiente.
Se você conhece o FORTRAN, pode usar este código que implementa o algoritmo AS 205: Ian Saunders, algoritmo AS 205: enumeração de tabelas R x C com totais de linhas repetidos, estatísticas aplicadas, volume 33, número 3, 1984, páginas 340-352. Está relacionado ao algo de Panefield a que @Glen_B se referiu.
Esse algo enumera todas as tabelas de presença, ou seja, passa por todas as tabelas possíveis, onde apenas uma bomba está em um campo. Ele também calcula a multiplicidade, ou seja, várias tabelas com a mesma aparência e calcula algumas probabilidades (não aquelas em que você está interessado). Com esse algoritmo, você poderá executar a enumeração completa mais rapidamente do que antes.
Presença, não independente
O algoritmo AS 205 pode ser aplicado a um caso em que as linhas e colunas não são independentes. Nesse caso, você teria que aplicar pesos diferentes a cada tabela gerada pela lógica de enumeração. O peso dependerá do processo de colocação das bombas.
Conta, independência
O problema da contagem permite mais de uma bomba colocada em uma célula, é claro. O caso especial de linhas e colunas de independentes contagem problema é fácil:Pji=Pi×Pj
, onde Pi e Pj são marginais de linhas e colunas. Por exemplo, a fila P6=3/15=0.2 e coluna P3=3/15=0.2 , portanto, a probabilidade de que uma bomba está em linha 6 e a coluna 3 éP36=0.04 . Você realmente produziu essa distribuição em sua primeira tabela.
Contagens, Não independentes, Cópulas discretas
Para resolver o problema das contagens em que linhas e colunas não são independentes, podemos aplicar cópulas discretas. Eles têm problemas: não são únicos. Mas não os torna inúteis. Então, eu tentaria aplicar cópulas discretas. Você pode encontrar uma boa visão geral deles em Genest, C. e J. Nešlehová (2007). Uma cartilha sobre cópulas para dados de contagem. Astin Bull. 37 (2), 475-515.
Cópulas podem ser especialmente úteis, pois geralmente permitem induzir dependência explicitamente ou estimar a partir dos dados quando os dados estão disponíveis. Quero dizer a dependência de linhas e colunas ao colocar bombas. Por exemplo, pode ser o caso quando, se a bomba for uma na primeira linha, é mais provável que também seja a primeira coluna.
Exemplo
Vamos aplicar a cópula de Kimeldorf e Sampson aos seus dados, assumindo novamente que mais de uma bomba pode ser colocada em uma célula. A cópula para um parâmetro de dependênciaθ é definida como:
C(u,v)=(u−θ+u−θ−1)−1/θ
Você pode pensar em θ como um análogo do coeficiente de correlação.
Independente
Você pode ver como na coluna 5 a probabilidade da segunda linha tem uma probabilidade duas vezes maior que a primeira linha. Isso não é errado, ao contrário do que você parecia sugerir na sua pergunta. Todas as probabilidades somam 100%, é claro, assim como os marginais nos painéis correspondem às frequências. Por exemplo, a coluna 5 no painel inferior mostra 1/3, o que corresponde às 5 bombas indicadas do total de 15, conforme o esperado.
Correlação positiva
Correlação negativa
Você pode ver que todas as probabilidades somam 100%, é claro. Além disso, você pode ver como a dependência afeta a forma do PMF. Para dependência positiva (correlação), você obtém o PMF mais alto concentrado na diagonal, enquanto que para a dependência negativa é fora da diagonal
fonte
Sua pergunta não deixa isso claro, mas vou assumir que as bombas são inicialmente distribuídas por amostragem aleatória simples sem substituição pelas células (para que uma célula não possa conter mais de uma bomba). A questão que você levantou está essencialmente solicitando o desenvolvimento de um método de estimativa para uma distribuição de probabilidade que possa ser computada exatamente (em teoria), mas que se torne computacionalmente inviável para calcular valores de parâmetros grandes.
A solução exata existe, mas é computacionalmente intensiva
Procurando bons métodos de estimativa
O estimador empírico ingênuo: O estimador que você propôs e usou em sua tabela verde é:
fonte