Ajustando a distribuição aos dados espaciais

10

Atravesse a postar minha pergunta de mathoverflow para encontrar algumas estatísticas ajuda específica.

Estou estudando um processo físico que gera dados que se projetam bem em duas dimensões com valores não negativos. Cada processo possui uma faixa (projetada) de pontos - - veja a imagem abaixo.xy

As trilhas de amostra são azuis, um tipo problemático de pista foi desenhado à mão em verde e uma região preocupante em vermelho: trilhas e região de preocupação

Cada faixa é o resultado de um experimento independente. Vinte milhões de experimentos foram realizados ao longo de vários anos, mas desses apenas dois mil exibem a característica que traçamos como uma trilha. Estamos preocupados apenas com as experiências que geram uma trilha, portanto nosso conjunto de dados é (aproximadamente) duas mil trilhas.

É possível que uma faixa entre na região de preocupação, e esperamos que da ordem de em faixas o faça. Estimar esse número é a questão em questão:1104

Como podemos calcular a probabilidade de uma faixa arbitrária entrar na região de preocupação?

Não é possível realizar experimentos com rapidez suficiente para ver com que frequência as faixas são geradas que entram na região de preocupação, por isso precisamos extrapolar a partir dos dados disponíveis.

, por exemplo, valores dados , mas isso não lida com dados como a trilha verde - parece necessário ter um modelo que englobe as duas dimensões.xy200

Ajustamos a distância mínima de cada pista à região de preocupação, mas não estamos convencidos de que isso esteja produzindo um resultado justificável.

1) Existe uma maneira conhecida de ajustar uma distribuição a esse tipo de dados para extrapolação?

-ou-

2) Existe uma maneira óbvia de usar esses dados para criar um modelo para gerar trilhas? Por exemplo, use a análise de componentes principais nas trilhas como pontos em um espaço grande e, em seguida, ajuste uma distribuição (Pearson?) Às trilhas projetadas nesses componentes.

Jeff Snider
fonte
11
Não devo fornecer mais informações sobre o processo específico, mas atualizarei a pergunta para falar sobre como os dados são coletados.
Jeff Snider
11
Atualizei o idioma para tentar ser mais concreto. Imagine que estamos jogando pedras em uma janela aberta do último andar e só nos importamos com o modo como as pedras que atravessam a janela saltam no chão por dentro. Jogamos milhões de pedras e cerca de 2000 passaram pela janela. Quando uma pedra atravessa a janela, traçamos uma trilha de seu progresso pelo chão. Dado que uma pedra atravessa a janela, queremos estimar a probabilidade de ela atravessar a região de preocupação.
Jeff Snider

Respostas:

1

Parece que você deseja simular a formação de faixas e, em seguida, realizar uma simulação de Monte Carlo para ver quantas faixas caem na região vermelha. Para fazer isso, eu primeiro converteria as linhas em duas funções, uma dando direção e a outra distância de um ponto para o próximo nessa faixa. Agora você pode estudar as distribuições de probabilidade associadas a essas duas funções. Por exemplo, você pode achar que a distância percorrida segue uma distribuição específica (tenha cuidado para que a distribuição não mude com o tempo). Se qualquer uma das variáveis ​​mudar ao longo do tempo, você terá que se aprofundar na análise de séries temporais (não no meu campo, desculpe).

Outro pensamento que vem à mente é que, como a direção do movimento em xy muda gradualmente na maioria das faixas, você pode examinar melhor a mudança na direção versus o tempo das faixas.

Você também precisará estimar a probabilidade de uma faixa começar em uma determinada coordenada xy com uma determinada direção. Você pode considerar o uso da estimativa de densidade do kernel para suavizar o PDF resultante ou, se parecer seguir uma distribuição para a qual existe um modelo analítico, a maximização da expectativa poderá ser usada para ajustar essa distribuição aos dados.

A simulação de Monte Carlo então extrairia amostras aleatórias dessas distribuições para simular as formas das faixas. Então você tem que simular um grande número de faixas e ver com que frequência essas faixas passam pela região vermelha. Pode ser milhares ou milhões de faixas, você precisará experimentar para ver quando a distribuição para de mudar à medida que você adiciona mais faixas.

chippies
fonte