Eu tenho um conjunto de dados de eventos que ocorreram durante o mesmo período de tempo. Cada evento tem um tipo (existem poucos tipos diferentes, menos de dez) e um local, representado como um ponto 2D.
Gostaria de verificar se há alguma correlação entre os tipos de eventos ou entre o tipo e o local. Por exemplo, talvez os eventos do tipo A geralmente não ocorram onde os eventos do tipo B ocorrem. Ou talvez em alguma área, haja principalmente eventos do tipo C.
Que tipo de ferramentas eu poderia usar para fazer isso? Sendo um novato em análise estatística, minha primeira ideia foi usar algum tipo de PCA (Principal Component Analysis) nesse conjunto de dados para ver se cada tipo de evento tinha seu próprio componente ou se alguns compartilhavam o mesmo (ou seja, estavam correlacionados)?
Devo mencionar que meu conjunto de dados é da ordem de 500.000 pontos , tornando as coisas um pouco mais difíceis de lidar.
EDIT: Como observado nas respostas abaixo e nos comentários, o caminho a seguir é modelar isso como um processo pontual marcado e, em seguida, usar R para fazer todo o trabalho pesado, conforme explicado em detalhes neste relatório do workshop: http: / /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html
Respostas:
O tipo de dados que você descreve é geralmente chamado de "padrões de pontos marcados"; R possui uma visualização de tarefas para estatísticas espaciais que oferece muitos bons pacotes para esse tipo de análise, a maioria dos quais provavelmente não é capaz de lidar com o tipo de dados gigantescos que você ter :(
Estes são dois tipos bastante diferentes de perguntas: A segunda pergunta sobre o posicionamento de um tipo de marca / evento. As palavras-chave a procurar nesse contexto são estimativa de intensidade de fe ou estimativa da função K se você estiver interessado em descobrir padrões de agrupamento (eventos de um tipo tendem a se agrupar) ou repulsão (eventos de um tipo tendem a ser separados). O primeiro pergunta sobre a correlação entre diferentes tipos de eventos. Isso geralmente é medido com funções de correlação de marca.
Acho que a subamostragem dos dados para obter um tamanho de dados mais tratável é perigosa (veja o comentário na resposta de @ hamner), mas talvez você possa agregar seus dados: divida a janela de observação em um número gerenciável de células de tamanho igual e tabule a contagem de eventos em cada. Cada célula é então descrita pela localização do seu centro e um vetor de 10 contagens para seus 10 tipos de marcas. Você deve poder usar os métodos padrão para processos de pontos marcados nesse processo agregado.
fonte
Primeiro, o tamanho do conjunto de dados. Eu recomendo coletar amostras pequenas e tratáveis do conjunto de dados (escolhendo aleatoriamente N pontos de dados ou escolhendo vários retângulos relativamente pequenos no plano XY e pegando todos os pontos que se enquadram nesse plano) e aprimorando suas técnicas de análise nesse subconjunto. Depois de ter uma idéia da forma de análise que funciona, você pode aplicá-la a partes maiores do conjunto de dados.
O PCA é usado principalmente como uma técnica de redução de dimensionalidade; seu conjunto de dados tem apenas três dimensões (uma das quais é categórica), então duvido que se aplique aqui.
Tente trabalhar com Matlab ou R para visualizar os pontos que você está analisando no plano XY (ou sua densidade relativa, se estiver trabalhando com todo o conjunto de dados), tanto para tipos individuais quanto para todos os tipos combinados, e ver quais padrões surgem visualmente. Isso pode ajudar a orientar uma análise mais rigorosa.
fonte