Corrigindo a imprecisão do relógio normalmente distribuído

10

Eu tenho um experimento que é executado em centenas de computadores distribuídos em todo o mundo que medem as ocorrências de certos eventos. Cada um dos eventos depende um do outro, para que eu possa ordená-los em ordem crescente e depois calcular a diferença de horário.

Os eventos devem ser distribuídos exponencialmente, mas ao plotar um histograma, é isso que recebo:

Histograma de eventos

A imprecisão dos relógios nos computadores faz com que alguns dos eventos recebam um carimbo de data e hora mais cedo do que o evento do qual eles dependem.

Gostaria de saber se a sincronização do relógio pode ser responsabilizada pelo fato de o pico do PDF não estar em 0 (que eles mudaram tudo para a direita)?

Se as diferenças dos relógios são normalmente distribuídas, posso apenas assumir que os efeitos compensarão um ao outro e, portanto, usaremos a diferença de tempo calculada?

cdecker
fonte

Respostas:

13

Os problemas de sincronização do relógio podem, de fato, fazer com que o pico seja deslocado para a direita. A simulação a seguir em R mostra esse fenômeno. Usei tempos exponenciais e diferenças normais de relógio para obter uma forma que se assemelha à sua imagem:

Relógios

A distribuição à esquerda (diferenças reais, medidas sem erro) tem seu pico em 0, enquanto a distribuição à direita (diferenças medidas com erros) tem seu pico em torno de 100.

Código R:

set.seed(20120904)

# Generate exponential time differences:
x<-rexp(100000,1/900)

# Generate normal clock differences:
y<-rnorm(100000,0,50)

# Resulting observations:
xy<-x+y

# Truncate at 500:
xy<-xy[xy<=500]

# Plot histograms:
par(mfrow=c(1,2))
hist(x[x<=500],breaks=100,col="blue",main="Actual differences")
hist(xy,breaks=100,col="blue",main="Observed differences")
lines(c(0,0),c(0,550),col="red")

Se as diferenças de relógio são normais com média 0, as diferenças devem ser canceladas no sentido de que a média das diferenças observadas deve ser igual à das diferenças reais. Se esse é o caso, depende da existência de uma diferença sistemática entre os computadores em que o primeiro evento ocorre e os computadores em que o segundo evento ocorre.

MånsT
fonte
4
+1 Bem ilustrado. Matematicamente, os dados são extraídos da soma da distribuição de erros e da distribuição exponencial (presumida). É tentador estimar a distribuição de erros e desconvolver os dados para estimar a distribuição verdadeira.
whuber