Исправление для нормально распределенной точности часов

10

У меня есть эксперимент, который выполняется на сотнях компьютеров, распределенных по всему миру, который измеряет случаи определенных событий. Каждое событие зависит друг от друга, поэтому я могу расположить их в порядке возрастания, а затем рассчитать разницу во времени.

События должны быть экспоненциально распределены, но при построении гистограммы я получаю следующее:

Гистограмма событий

Неточность часов на компьютерах приводит к тому, что некоторым событиям назначается метка времени раньше, чем событию, от которого они зависят.

Мне интересно, можно ли обвинить синхронизацию часов в том, что пик PDF не равен 0 (что они сместили все это вправо)?

Если различия в часах распределяются нормально, могу ли я предположить, что эффекты будут компенсировать друг друга и, таким образом, просто использовать рассчитанное время?

cdecker
источник

Ответы:

13

Проблемы с синхронизацией часов действительно могут привести к смещению пика вправо. Следующая симуляция в R показывает это явление. Я использовал экспоненциальное время и нормальную разницу часов, чтобы получить форму, которая примерно напоминает вашу картинку:

Часы

Распределение слева (фактические различия, измеренные без ошибок) имеет свой пик в 0, тогда как распределение справа (различия, измеренные с ошибками) имеет свой пик около 100.

R-код:

set.seed(20120904)

# Generate exponential time differences:
x<-rexp(100000,1/900)

# Generate normal clock differences:
y<-rnorm(100000,0,50)

# Resulting observations:
xy<-x+y

# Truncate at 500:
xy<-xy[xy<=500]

# Plot histograms:
par(mfrow=c(1,2))
hist(x[x<=500],breaks=100,col="blue",main="Actual differences")
hist(xy,breaks=100,col="blue",main="Observed differences")
lines(c(0,0),c(0,550),col="red")

Если разница часов нормальна со средним значением 0, различия должны быть устранены в том смысле, что среднее значение наблюдаемых различий должно равняться среднему значению фактических различий. Это зависит от того, существует ли систематическая разница между компьютерами, на которых происходит первое событие, и компьютерами, на которых происходит второе событие.

MånsT
источник
4
+1 Красиво проиллюстрировано. Математически данные взяты из суммы распределения ошибок и (предполагаемого) экспоненциального распределения. Соблазнительно оценить распределение ошибок и деконвертировать данные для оценки истинного распределения.
whuber