Определите, значительно ли улучшился распределенный процесс с тяжелыми хвостами

12

Я наблюдаю время обработки процесса до и после изменения, чтобы выяснить, улучшился ли процесс в результате изменения. Процесс улучшился, если время обработки сократилось. Распределение времени обработки жирнохвостое, поэтому сравнение по среднему показателю нецелесообразно. Вместо этого я хотел бы знать, значительно ли вероятность наблюдать меньшее время обработки после изменения выше 50%.

Пусть будет случайной величиной для времени обработки после изменения, а Y - предыдущей. Если P ( X < Y ) значительно выше 0,5, то я бы сказал, что процесс улучшился.XYP(X<Y)0.5

Теперь у меня есть наблюдений х I из X и м наблюдений у J из Y . Наблюдаемая вероятность P ( X < Y ) является р = 1nxiXmyjYP(X<Y).p^=1nmij1xi<yj

Что я могу сказать о учитывая наблюдения x i и y j ?P(X<Y)xiyj

Кристиан
источник

Ответы:

12

Ваша оценка р равно Манна-Уитни U статистики , разделенной на м н (спасибо, Глен!), И, следовательно , эквивалентно Вилкоксона суммы рангов статистики W (также известный как статистика Вилкоксона-Манна-Уитни): W = U + n ( n + 1 )p^UmnWW=U+n(n+1)2 , гдеn- размер выборкиy(при условии отсутствия связей). Поэтому вы можете использовать таблицы / программное обеспечение теста Уилкоксона и преобразовать их обратно вUчтобы получить доверительный интервал илиpзначение.

Пусть m будет размером выборки x , N = m+n . Тогда асимптотически

W=Wm(N+1)2mn(N+1)12N(0,1)

Источник: Холландер и Вульф , Непараметрические статистические методы, примерно с. 117, но, вероятно, большинство непараметрических книг статистики попадут туда.

jbowman
источник
@Glen_b - спасибо, я обновил ответ. Очень щедрое предположение, которое вы сделали там о причине ошибки!
Jbowman
13

@jbowman предоставляет (хорошее) стандартное решение задачи оценки которая известна как модель прочности при напряжении .θ=P(X<Y)

Другая непараметрическая альтернатива была предложена в Baklizi and Eidous (2006) для случая, когда и Y независимы. Это описано ниже.XY

По определению имеем

θ=P(X<Y)=FX(y)fY(y)dy,

где представляет ВПР из X и F Y представляет собой плотность Y . Затем, используя образцы X и Y можно получить ядро оценок из F X и F Y и , следовательно , и оценку & thetasFXXfYYXYFXfYθ

θ^=F^X(y)f^Y(y)dy.

Это реализовано в следующем коде R с использованием ядра Гаусса.

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r )
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

# Example when X and Y are Cauchy
datx = rcauchy(100,0,1)
daty =  rcauchy(100,0,1)

nonpest(datx,daty)

θ

# bootstrap
B=1000
p = rep(0,B)

for(j in 1:B){
dat1 =  sample(datx,length(datx),replace=T)
dat2 =  sample(daty,length(daty),replace=T)
p[j] = nonpest(dat1,dat2)
}

# histogram of the bootstrap sample
hist(p)

# A confidence interval (quantile type)
c(quantile(p,0.025),quantile(p,0.975))

Другие виды интервалов начальной загрузки также могут быть рассмотрены.


источник
2
Интересная и хорошая бумажная ссылка (+1). Я добавлю это в свой репертуар!
jbowman
0

XiYiP(XiYi<0)=pI{XiYi<0}i=1,2,..,nXXi<Yin p=P(XiYi<0)X/n

Майкл Р. Черник
источник
2
Что лежит в основе спаривания, Майкл?
whuber
ОП сказал: «Пусть X будет случайной величиной для времени обработки после изменения, а Y - до». Итак, Xi - после вмешательства, а Yi - до.
Майкл Р. Черник
m=nXiYj
1
Ты прав. Я полагаю, что было бы уместно провести тест с двумя образцами, такой как Уилкоксон, как предложено выше. Интересно, что форма Манна-Уитни в тесте подсчитывает число Xis <Yjs.
Майкл Р. Черник