Как я могу оценить вероятность того, что случайный член из одной популяции «лучше», чем случайный член из другой популяции?

15

Предположим, у меня есть выборки из двух разных групп населения. Если я измерил, сколько времени требуется каждому члену для выполнения задачи, я могу легко оценить среднее значение и дисперсию каждой популяции.

Если я теперь выдвигаю гипотезу о случайном спаривании с одним человеком из каждой популяции, могу ли я оценить вероятность того, что первое быстрее второго?

Я имею в виду конкретный пример: измерения - это время для меня, когда я езжу на велосипеде от А до Б, а население представляет разные маршруты, которые я мог бы выбрать; Я пытаюсь выяснить, какова вероятность того, что выбор маршрута A для моего следующего цикла будет быстрее, чем выбор маршрута B. Когда я на самом деле выполняю цикл, у меня есть другая точка данных для моего набора образцов :).

Я знаю, что это ужасно упрощенный способ попытаться решить эту проблему, не в последнюю очередь потому, что в любой день ветер, скорее всего, повлияет на мое время, чем что-либо еще, поэтому, пожалуйста, дайте мне знать, если вы думаете, что я спрашиваю неправильный вопрос ...

Эндрю Айлетт
источник
Это можно сделать с помощью простого биномиального тестирования, и у @Macro есть хороший ответ. Однако одна проблема связана с самими образцами: может ли что-нибудь повлиять на ваше решение выбрать маршрут А или маршрут Б? В частности, вам нравится ехать по трассе А, когда дороги сухие, ветер у вас за спиной и ужин ждет? :) Просто будьте осторожны со всем, что может повлиять на выбросы в наборе или каким-либо образом повлиять на выборки. Например, попробуйте заранее составить план пробоотбора с учетом необходимости изменения (например, безопасности).
Итератор
Еще одно соображение: предположим, что у вас есть два маршрута с очень похожими средствами, и ни один из них не доминирует над другим с точки зрения вероятности того, что он будет быстрее. Например, один всегда 10 или 20 минут, а другой всегда точно 15 минут. Может оказаться, что лучше штрафовать большую неопределенность (например, стандартное отклонение) или отдавать предпочтение той, которая, скорее всего, займет меньше некоторого порога времени. Ваш вопрос как есть, в порядке; Я просто предлагаю будущее уточнение.
Итератор
Статистический вопрос - это хорошо, но если вы хотите определить вероятность того, какой маршрут быстрее, я должен предложить измерить длину маршрутов. Если местность не холмистая, то более короткий маршрут всегда будет быстрее.
mpiktas
Если ветер является важным фактором, и если скорости ветра связаны для двух маршрутов, то, по-видимому, человеку потребуется информация о зависимости между А и В, чтобы точно ответить на вопрос. Для этого вам понадобятся двумерные данные, и сложно одновременно ехать двумя путями. Вы можете привлечь кого-то еще, чтобы помочь вам собрать данные, но тогда вам придется учитывать различия между гонщиками. В случае, когда A и B независимы, ответы ниже велики.
Другими словами, если я пытаюсь решить, какой путь выбрать: через туннель, через поле, а ветер дует как сумасшедший, я вполне могу выбрать поле, даже если оно в среднем ужасно хуже.

Ответы:

12

Решение

Пусть два средних будут и μ y, а их стандартные отклонения будут σ x и σ yμxμyσxσy соответственно. Поэтому разница во времени между двумя поездками ( ) имеет среднее значение μ y - μ x и стандартное отклонение YXμyμx . Стандартизированная разница («z балл»)σx2+σy2

z=μyμxσx2+σy2.

Если время вашего пробега не имеет странного распределения, вероятность того, что поездка займет больше времени, чем поездка X , приблизительно равна нормальному кумулятивному распределению Φ , оцененному в точке z .YXΦz

вычисление

Вы можете рассчитать эту вероятность на одном из ваших рейсов, потому что у вас уже есть оценки и т. Д. :-). Для этой цели можно легко запомнить несколько значений ключа из Ф : Ф ( 0 ) = 0,5 = 1 / 2 , Φ ( - 1 ) 0,16 1 / 6 , Φ ( - 2 ) 0,022 1 / +40 , и Φ ( - 3 ) 0,0013μxΦΦ(0)=.5=1/2Φ(1)0.161/6Φ(2)0.0221/40 . (Приближение может быть плохим для | z | намного больше, чем 2 Φ ( z ) = 1 - Φ ( - z ) и небольшим количеством интерполяции вы может быстро оценить вероятность до одной значимой цифры, которая более чем достаточно точна, учитывая природу проблемы и данные.Φ(3)0.00131/750|z|2, но знание помогает в интерполяции.) В сочетании сΦ(3)Φ(z)=1Φ(z)

пример

Предположим, что маршрут занимает 30 минут со стандартным отклонением 6 минут, а маршрут Y занимает 36 минут со стандартным отклонением 8 минут. С достаточным количеством данных, охватывающих широкий диапазон условий, гистограммы ваших данных могут в конечном итоге приблизиться к следующим:XY

Две гистограммы

(Это функции плотности вероятности для переменных Gamma (25, 30/25) и Gamma (20, 36/20). Обратите внимание, что они решительно смещены вправо, как и следовало ожидать для времени езды.)

потом

μx=30,μy=36,σx=6,σy=8.

Откуда

z=363062+82=0.6.

У нас есть

Φ(0)=0.5;Φ(1)=1Φ(1)10.16=0.84.

Поэтому мы оцениваем ответ как 0,6 от 0,5 до 0,84: 0,5 + 0,6 * (0,84 - 0,5) = приблизительно 0,70. (Правильное, но слишком точное значение для нормального распределения составляет 0,73.)

Существует около 70% вероятности того, что маршрут YX

(Правильная вероятность для показанных гистограмм составляет 72%, хотя ни один из них не является нормальным: это иллюстрирует область применения и полезность нормального приближения для разницы во времени срабатывания.)

Whuber
источник
P(X>Y)
@Macro: если данные могут быть сведены к сводной статистике для интересующего вопроса, можно хранить меньше данных ... просто мысль.
Итератор
P(X>Y)YXYX
FWIW: @whuber описывает t-критерий Стьюдента для разницы в средних между двумя образцами с различными стандартными отклонениями.
Итератор
1
Спасибо, @whuber, это ответ на вопрос, который я пытался задать :).
Эндрю Айлетт
6

Мой инстинктивный подход, возможно, не самый сложный с точки зрения статистики, но вам может показаться, что он веселее :)

Я бы получил лист миллиметровки приличного размера и разделил бы столбцы на блоки времени. В зависимости от того, как долго ваши поездки - мы говорим о среднем времени 5 минут или час - вы можете использовать блоки разных размеров. Допустим, каждый столбец представляет собой блок из двух минут. Выберите цвет для маршрута A и другой цвет для маршрута B, и после каждой поездки сделайте точку в соответствующем столбце. Если точка этого цвета уже есть, переместитесь на одну строку вверх. Другими словами, это будет гистограмма в абсолютных числах.

Затем вы будете составлять забавную гистограмму для каждой выбранной вами поездки и сможете визуально увидеть разницу между этими двумя маршрутами.

Основываясь на моем собственном опыте работы с велосипедистами (не подтвержденным количественно), я чувствую, что времена не будут нормально распределяться - у них будет положительный перекос или, другими словами, длинный хвост времени верхнего сегмента. Мое типичное время не намного больше, чем мое самое короткое возможное время, но время от времени я, кажется, поражаю все красные огни, и есть намного более высокий верхний предел. Ваш опыт может быть другим. Вот почему я думаю, что гистограммный подход мог бы быть лучше, поэтому вы можете наблюдать форму распределения самостоятельно.

PS: мне не хватает представителей, чтобы комментировать на этом форуме, но мне нравится ответ whuber! Он довольно эффективно решает мою проблему с асимметричным анализом. И мне нравится идея расчета в вашей голове, чтобы отвлечься от следующего холма :)

Джонатан
источник
1
+1 За творчество. На самом деле, ваша идея находится на пути к практической полезности. Было бы немного интереснее использовать один из сайтов отслеживания велосипедов (я забыл, какой сейчас, но добавлю, если вы знаете), чтобы отслеживать время сегмента. Если ОП вернется к CV или StackOverflow с вопросом о графике времени сегмента и получит связанную с ним плотность, это будет невероятное статистическое упражнение - ГИС, статистическая визуализация и функции плотности, о мой! :)
Итератор
1
Я использовал Google MyTracks на своем телефоне для отслеживания велосипедных сегментов. Я нахожу, что телефон не очень хорош в этом, поскольку он имеет тенденцию быть отстой власти на устройстве, не оптимизированном для этого. Garmin (и другие) делают GPS-устройства, специально предназначенные для бегунов и байкеров, чтобы отслеживать время, затрачиваемое на маршруты, и предоставлять аккуратные графики в онлайн-интерфейсе. Я не использую выделенное устройство GPS самостоятельно, но некоторые из моих друзей используют их, чтобы делиться маршрутами на Facebook.
Джонатан
1
Вот пример того, что производит устройство Garmin. Проблема с диаграммами заключается в том, что они уже сильно обработаны, сглажены и т. Д. Также нет удобного способа импортировать данные, например, в R. Но, как отдельное устройство, оно прекрасно справляется со своей задачей, я не могу представить без него бег или велосипед.
mpiktas
+1 Обратите внимание, что при включении красных огней не так много искажений (если они не рассчитаны по времени): в совокупности они обычно только добавляют гауссовский шум к распределению времени. (Вычисление его дисперсии - это еще одно умственное упражнение, которое вы можете выполнить на следующем холме.) На практике перекос происходит из-за негауссовой вариации в нескольких важных факторах, которые контролируют всю поездку: погода, как вы себя чувствуете, с кем вы ' езда и случайные аварии / объезд / пробка и т. д.
whuber
Теперь, когда я еще об этом подумаю, еще один очень важный фактор - время суток. Светофоры действуют очень по-разному в пиковое время движения - гораздо больше зеленого цвета для дороги с более интенсивным движением. В непиковое время огни имеют тенденцию к быстрому циклу, по умолчанию зеленого цвета для дороги с интенсивным движением, но быстро меняющейся, когда я нажимаю кнопку пересечения или автомобиль активирует датчик.
Джонатан
5

XYx,yx>yP(Xi>Yj)i,j

#X, Y are the two data sets
ii = rep(0,10000)
for(k in 1:10000)
{
   x1 = sample(X,1)
   y1 = sample(Y,1)
   ii[k] = (x1>y1) 
}

# this is an estimate of P(X>Y)
mean(ii)
макрос
источник
Это хороший ответ, но вы можете упростить его, удалив forцикл: позвольте x1 = sample(X, 10000, replace = TRUE)и y1 = sample(Y, 10000, replace = TRUE)затем вычислите mean(x1 > y1)вместе с mean(x1 == y1)-, чтобы понять , сколько раз значения равны.
Итератор
Благодарю. Я знал, что цикл не нужен, но хотел, чтобы логика, лежащая в основе подхода, была совершенно ясной. Ваш код наверняка даст те же результаты.
Макрос