Atravesse a postar minha pergunta de mathoverflow para encontrar algumas estatísticas ajuda específica.
Estou estudando um processo físico que gera dados que se projetam bem em duas dimensões com valores não negativos. Cada processo possui uma faixa (projetada) de pontos - - veja a imagem abaixo.
As trilhas de amostra são azuis, um tipo problemático de pista foi desenhado à mão em verde e uma região preocupante em vermelho:
Cada faixa é o resultado de um experimento independente. Vinte milhões de experimentos foram realizados ao longo de vários anos, mas desses apenas dois mil exibem a característica que traçamos como uma trilha. Estamos preocupados apenas com as experiências que geram uma trilha, portanto nosso conjunto de dados é (aproximadamente) duas mil trilhas.
É possível que uma faixa entre na região de preocupação, e esperamos que da ordem de em faixas o faça. Estimar esse número é a questão em questão:
Como podemos calcular a probabilidade de uma faixa arbitrária entrar na região de preocupação?
Não é possível realizar experimentos com rapidez suficiente para ver com que frequência as faixas são geradas que entram na região de preocupação, por isso precisamos extrapolar a partir dos dados disponíveis.
, por exemplo, valores dados , mas isso não lida com dados como a trilha verde - parece necessário ter um modelo que englobe as duas dimensões.
Ajustamos a distância mínima de cada pista à região de preocupação, mas não estamos convencidos de que isso esteja produzindo um resultado justificável.
1) Existe uma maneira conhecida de ajustar uma distribuição a esse tipo de dados para extrapolação?
-ou-
2) Existe uma maneira óbvia de usar esses dados para criar um modelo para gerar trilhas? Por exemplo, use a análise de componentes principais nas trilhas como pontos em um espaço grande e, em seguida, ajuste uma distribuição (Pearson?) Às trilhas projetadas nesses componentes.
fonte
Respostas:
Parece que você deseja simular a formação de faixas e, em seguida, realizar uma simulação de Monte Carlo para ver quantas faixas caem na região vermelha. Para fazer isso, eu primeiro converteria as linhas em duas funções, uma dando direção e a outra distância de um ponto para o próximo nessa faixa. Agora você pode estudar as distribuições de probabilidade associadas a essas duas funções. Por exemplo, você pode achar que a distância percorrida segue uma distribuição específica (tenha cuidado para que a distribuição não mude com o tempo). Se qualquer uma das variáveis mudar ao longo do tempo, você terá que se aprofundar na análise de séries temporais (não no meu campo, desculpe).
Outro pensamento que vem à mente é que, como a direção do movimento em xy muda gradualmente na maioria das faixas, você pode examinar melhor a mudança na direção versus o tempo das faixas.
Você também precisará estimar a probabilidade de uma faixa começar em uma determinada coordenada xy com uma determinada direção. Você pode considerar o uso da estimativa de densidade do kernel para suavizar o PDF resultante ou, se parecer seguir uma distribuição para a qual existe um modelo analítico, a maximização da expectativa poderá ser usada para ajustar essa distribuição aos dados.
A simulação de Monte Carlo então extrairia amostras aleatórias dessas distribuições para simular as formas das faixas. Então você tem que simular um grande número de faixas e ver com que frequência essas faixas passam pela região vermelha. Pode ser milhares ou milhões de faixas, você precisará experimentar para ver quando a distribuição para de mudar à medida que você adiciona mais faixas.
fonte