Análise da correlação cruzada entre processos pontuais

15

Gostaria de um conselho sobre o método de análise que estou usando, para saber se ele é estatisticamente correto.

Medi dois pontos processa e T 2 = t 2 1 , t 2 2 , . . . , T 2 m e quero determinar se os eventos em T 1 estão de alguma forma correlacionada com os eventos em T 2 .T1=t11,t21,...,tn1T2=t12,t22,...,tm2T1T2

Um dos métodos que eu encontrei na literatura é o de construir um histograma de correlação cruzada: para cada encontramos o atraso a todos os eventos de T 2 que caem em uma determinada janela de tempo (antes e depois t 1 n ), e então construímos um histograma de todos esses atrasos.tn1T2tn1

Se os dois processos não são correlacionados eu esperaria um histograma plana, como a probabilidade de ter um evento em depois (ou antes) um evento em T 1 é igual em todos os atrasos. Por outro lado, se houver um pico no histograma, isso sugere que o processo de dois pontos está de alguma forma influenciando um ao outro (ou, pelo menos, tem alguma entrada comum).T2T1

Agora, isso é bom e bom, mas como posso determinar se os histogramas têm um pico (devo dizer que, para meu conjunto de dados específico, eles são claramente planos, mas ainda assim seria bom ter uma maneira estatística de confirmando isso)?

Então, aqui o que eu fiz: Eu tenho repetido o processo de geração do histograma por vários (1000) vezes mantendo como ele é e usando uma versão "embaralhadas" de T 2 . Para embaralhar T 2 , calculo os intervalos entre todos os eventos, embaralhe-os e soma-os para reconstituir um novo processo pontual. No RI, basta fazer isso com:T1T2T2

times2.swp <- cumsum(sample(diff(times2)))

T2T1

T2T1

Eu pegaria esse valor de 95% para todos os atrasos e o usaria como um "limite de confiança" (provavelmente este não é o termo correto) para que qualquer coisa que ultrapasse esse limite no histograma original possa ser considerada "verdadeira" pico".

Pergunta 1 : este método é estatisticamente correto? Se não, como você resolveria esse problema?

Pergunta 2 : outra coisa que quero ver é se existe um tipo de correlação "mais" dos meus dados. Por exemplo, pode haver mudanças semelhantes na taxa de eventos nos processos de dois pontos (observe que eles podem ter taxas bem diferentes), mas não sei ao certo como fazer isso. Pensei em criar um "envelope" de cada processo pontual usando algum tipo de suavização do kernel e, em seguida, realizando uma análise de correlação cruzada dos dois envelopes. Você poderia sugerir outro tipo de análise possível?

Obrigado e desculpe por esta pergunta muito longa.

nico
fonte

Respostas:

11

Um método padrão para analisar esse problema em duas ou mais dimensões é a função K (cruzada) de Ripley , mas não há razão para não usá-lo em uma dimensão também. (Uma pesquisa no Google faz um bom trabalho em desenterrar referências.) Essencialmente, ele plota o CDF de todas as distâncias entre os pontos nas duas realizações, em vez de uma aproximação do histograma ao PDF dessas distâncias. (Uma variante, a função L, plota a diferença entre K e a distribuição nula para dois processos uniformes não correlacionados.) Isso evita a maioria dos problemas que você enfrenta com a necessidade de escolher caixas, suavizar etc. Bandas de confiança para K normalmente são criados por simulação. Isso é fácil de fazer em R. Muitos pacotes de estatísticas espaciais para R podem ser usados ​​diretamente ou facilmente adaptados a este caso 1D. Roger Bivand'sA página de visão geral do CRAN lista estes pacotes: consulte a seção "Análise de padrões de pontos".

whuber
fonte
Interessante ... Estou um pouco ocupado no momento, mas definitivamente vou dar uma olhada nisso!
Nico