Предположим, у меня есть выборки из двух разных групп населения. Если я измерил, сколько времени требуется каждому члену для выполнения задачи, я могу легко оценить среднее значение и дисперсию каждой популяции.
Если я теперь выдвигаю гипотезу о случайном спаривании с одним человеком из каждой популяции, могу ли я оценить вероятность того, что первое быстрее второго?
Я имею в виду конкретный пример: измерения - это время для меня, когда я езжу на велосипеде от А до Б, а население представляет разные маршруты, которые я мог бы выбрать; Я пытаюсь выяснить, какова вероятность того, что выбор маршрута A для моего следующего цикла будет быстрее, чем выбор маршрута B. Когда я на самом деле выполняю цикл, у меня есть другая точка данных для моего набора образцов :).
Я знаю, что это ужасно упрощенный способ попытаться решить эту проблему, не в последнюю очередь потому, что в любой день ветер, скорее всего, повлияет на мое время, чем что-либо еще, поэтому, пожалуйста, дайте мне знать, если вы думаете, что я спрашиваю неправильный вопрос ...
источник
Ответы:
Решение
Пусть два средних будут и μ y, а их стандартные отклонения будут σ x и σ yμx μy σx σy соответственно. Поэтому разница во времени между двумя поездками ( ) имеет среднее значение μ y - μ x и стандартное отклонение √Y−X μy−μx . Стандартизированная разница («z балл»)σ2x+σ2y−−−−−−√
Если время вашего пробега не имеет странного распределения, вероятность того, что поездка займет больше времени, чем поездка X , приблизительно равна нормальному кумулятивному распределению Φ , оцененному в точке z .Y X Φ z
вычисление
Вы можете рассчитать эту вероятность на одном из ваших рейсов, потому что у вас уже есть оценки и т. Д. :-). Для этой цели можно легко запомнить несколько значений ключа из Ф : Ф ( 0 ) = 0,5 = 1 / 2 , Φ ( - 1 ) ≈ 0,16 ≈ 1 / 6 , Φ ( - 2 ) ≈ 0,022 ≈ 1 / +40 , и Φ ( - 3 ) ≈ 0,0013μx Φ Φ(0)=.5=1/2 Φ(−1)≈0.16≈1/6 Φ(−2)≈0.022≈1/40 . (Приближение может быть плохим для | z | намного больше, чем 2 Φ ( z ) = 1 - Φ ( - z ) и небольшим количеством интерполяции вы может быстро оценить вероятность до одной значимой цифры, которая более чем достаточно точна, учитывая природу проблемы и данные.Φ(−3)≈0.0013≈1/750 |z| 2 , но знание помогает в интерполяции.) В сочетании сΦ(−3) Φ(z)=1−Φ(−z)
пример
Предположим, что маршрут занимает 30 минут со стандартным отклонением 6 минут, а маршрут Y занимает 36 минут со стандартным отклонением 8 минут. С достаточным количеством данных, охватывающих широкий диапазон условий, гистограммы ваших данных могут в конечном итоге приблизиться к следующим:X Y
(Это функции плотности вероятности для переменных Gamma (25, 30/25) и Gamma (20, 36/20). Обратите внимание, что они решительно смещены вправо, как и следовало ожидать для времени езды.)
потом
Откуда
У нас есть
Поэтому мы оцениваем ответ как 0,6 от 0,5 до 0,84: 0,5 + 0,6 * (0,84 - 0,5) = приблизительно 0,70. (Правильное, но слишком точное значение для нормального распределения составляет 0,73.)
Существует около 70% вероятности того, что маршрутY X
(Правильная вероятность для показанных гистограмм составляет 72%, хотя ни один из них не является нормальным: это иллюстрирует область применения и полезность нормального приближения для разницы во времени срабатывания.)
источник
Мой инстинктивный подход, возможно, не самый сложный с точки зрения статистики, но вам может показаться, что он веселее :)
Я бы получил лист миллиметровки приличного размера и разделил бы столбцы на блоки времени. В зависимости от того, как долго ваши поездки - мы говорим о среднем времени 5 минут или час - вы можете использовать блоки разных размеров. Допустим, каждый столбец представляет собой блок из двух минут. Выберите цвет для маршрута A и другой цвет для маршрута B, и после каждой поездки сделайте точку в соответствующем столбце. Если точка этого цвета уже есть, переместитесь на одну строку вверх. Другими словами, это будет гистограмма в абсолютных числах.
Затем вы будете составлять забавную гистограмму для каждой выбранной вами поездки и сможете визуально увидеть разницу между этими двумя маршрутами.
Основываясь на моем собственном опыте работы с велосипедистами (не подтвержденным количественно), я чувствую, что времена не будут нормально распределяться - у них будет положительный перекос или, другими словами, длинный хвост времени верхнего сегмента. Мое типичное время не намного больше, чем мое самое короткое возможное время, но время от времени я, кажется, поражаю все красные огни, и есть намного более высокий верхний предел. Ваш опыт может быть другим. Вот почему я думаю, что гистограммный подход мог бы быть лучше, поэтому вы можете наблюдать форму распределения самостоятельно.
PS: мне не хватает представителей, чтобы комментировать на этом форуме, но мне нравится ответ whuber! Он довольно эффективно решает мою проблему с асимметричным анализом. И мне нравится идея расчета в вашей голове, чтобы отвлечься от следующего холма :)
источник
источник
for
цикл: позвольтеx1 = sample(X, 10000, replace = TRUE)
иy1 = sample(Y, 10000, replace = TRUE)
затем вычислитеmean(x1 > y1)
вместе сmean(x1 == y1)
-, чтобы понять , сколько раз значения равны.