Como encontrar relações entre diferentes tipos de eventos (definidos por sua localização 2D)?

9

Eu tenho um conjunto de dados de eventos que ocorreram durante o mesmo período de tempo. Cada evento tem um tipo (existem poucos tipos diferentes, menos de dez) e um local, representado como um ponto 2D.

Gostaria de verificar se há alguma correlação entre os tipos de eventos ou entre o tipo e o local. Por exemplo, talvez os eventos do tipo A geralmente não ocorram onde os eventos do tipo B ocorrem. Ou talvez em alguma área, haja principalmente eventos do tipo C.

Que tipo de ferramentas eu poderia usar para fazer isso? Sendo um novato em análise estatística, minha primeira ideia foi usar algum tipo de PCA (Principal Component Analysis) nesse conjunto de dados para ver se cada tipo de evento tinha seu próprio componente ou se alguns compartilhavam o mesmo (ou seja, estavam correlacionados)?

Devo mencionar que meu conjunto de dados é da ordem de 500.000 pontos , tornando as coisas um pouco mais difíceis de lidar.(x,y,type)

EDIT: Como observado nas respostas abaixo e nos comentários, o caminho a seguir é modelar isso como um processo pontual marcado e, em seguida, usar R para fazer todo o trabalho pesado, conforme explicado em detalhes neste relatório do workshop: http: / /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html

Wookai
fonte
Esse é um conjunto de dados raster, como uma imagem detectada remotamente (processada) ou é um conjunto de dados irregular?
whuber
Bem, acho que você chamaria de irregular: são gravações de crimes que ocorreram no Reino Unido durante um determinado mês, disponíveis aqui: police.uk/data .
Wookai 14/03
@Wookai 500.000.000 crimes no Reino Unido em um mês ?? A anarquia desceu sobre as Ilhas Britânicas não relatada pela imprensa, apenas para finalmente ser revelada nos arquivos da polícia? :-) Eu podia acreditar em 1/100 dessa quantia - mal.
whuber
Uau, eu realmente sinto muito por este "erro de digitação";)! Na verdade, é 1000 vezes menos, 500.000 crimes (contando "crimes de veículos", ou seja, multas, etc ...).
Wookai
11
Sim, R parece o caminho a seguir! Encontrei um relatório muito completo de um workshop sobre o módulo spatstat de R, que faz exatamente o que estou procurando: csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html
Wookai

Respostas:

3

O tipo de dados que você descreve é ​​geralmente chamado de "padrões de pontos marcados"; R possui uma visualização de tarefas para estatísticas espaciais que oferece muitos bons pacotes para esse tipo de análise, a maioria dos quais provavelmente não é capaz de lidar com o tipo de dados gigantescos que você ter :(

Por exemplo, talvez os eventos do tipo A geralmente não ocorram onde os eventos do tipo B ocorrem. Ou talvez em alguma área, haja principalmente eventos do tipo C.

Estes são dois tipos bastante diferentes de perguntas: A segunda pergunta sobre o posicionamento de um tipo de marca / evento. As palavras-chave a procurar nesse contexto são estimativa de intensidade de fe ou estimativa da função K se você estiver interessado em descobrir padrões de agrupamento (eventos de um tipo tendem a se agrupar) ou repulsão (eventos de um tipo tendem a ser separados). O primeiro pergunta sobre a correlação entre diferentes tipos de eventos. Isso geralmente é medido com funções de correlação de marca.

Acho que a subamostragem dos dados para obter um tamanho de dados mais tratável é perigosa (veja o comentário na resposta de @ hamner), mas talvez você possa agregar seus dados: divida a janela de observação em um número gerenciável de células de tamanho igual e tabule a contagem de eventos em cada. Cada célula é então descrita pela localização do seu centro e um vetor de 10 contagens para seus 10 tipos de marcas. Você deve poder usar os métodos padrão para processos de pontos marcados nesse processo agregado.

fabianos
fonte
Eu estou familiarizado com processos pontuais marcados e algumas ferramentas teóricas relacionadas, eu deveria ter pensado nisso antes. Muito obrigado pelas palavras-chave. Talvez você tenha algumas dicas para isso? Obrigado também pela idéia de agregação, eu tive uma idéia semelhante, tentarei fazer isso.
Wookai
2
Peter Diggle escreveu uma "geoestatística baseada em modelo". Ele também tem uma análise dos dados de crimes de Lancashire nesta página: lancs.ac.uk/staff/diggle/MADE que pode lhe dar algumas boas idéias.
Fabian 14/03
1

Primeiro, o tamanho do conjunto de dados. Eu recomendo coletar amostras pequenas e tratáveis ​​do conjunto de dados (escolhendo aleatoriamente N pontos de dados ou escolhendo vários retângulos relativamente pequenos no plano XY e pegando todos os pontos que se enquadram nesse plano) e aprimorando suas técnicas de análise nesse subconjunto. Depois de ter uma idéia da forma de análise que funciona, você pode aplicá-la a partes maiores do conjunto de dados.

O PCA é usado principalmente como uma técnica de redução de dimensionalidade; seu conjunto de dados tem apenas três dimensões (uma das quais é categórica), então duvido que se aplique aqui.

Tente trabalhar com Matlab ou R para visualizar os pontos que você está analisando no plano XY (ou sua densidade relativa, se estiver trabalhando com todo o conjunto de dados), tanto para tipos individuais quanto para todos os tipos combinados, e ver quais padrões surgem visualmente. Isso pode ajudar a orientar uma análise mais rigorosa.

Benhamner
fonte
11
Se isso é apropriado depende do que você já sabe ou assume sobre seu processo de geração de dados. A subamostragem dos dados por região (por exemplo, pegar todos os pontos em uma janela menor predefinida) pode ser perigosa se não for homogênea (porque o uso de uma janela diferente alteraria suas conclusões). A amostragem dos dados sem considerar o posicionamento de um conjunto de treinamento tem o efeito de "afinar" o processo observado e invalida as conclusões que você pode querer tirar, por exemplo, o intervalo de correlações entre marcas ou processos de agrupamento / repulsão.
Fabian
Sim, eu sei que o PCA é para redução de dimensionalidade, é por isso que fiquei confuso sobre como poderia aplicá-lo ao meu conjunto de dados. A idéia era ver se cada tipo de evento tinha sua própria "direção" ou se alguns "compartilhavam a mesma direção". Mas acho que estava simplesmente pensando em correlação.
Wookai