РЕДАКТИРОВАТЬ: Меня больше интересуют технические вопросы и методология определения вероятности «истинного» максимума в данной популяции с учетом выборочной статистики. Есть проблемы с оценкой вероятности более быстрых бегунов, чем г-н Болт, по рекордным временам броска, которые являются одновременно очевидными и тонкими. Забавьте меня, воображая, что это не так.
Усэйн Болт - самый быстрый человек, измеренный за 100 м. Однако, учитывая небольшое количество спортсменов, кажется вероятным, что «настоящий» самый быстрый человек живёт где-то на диване и никогда не пытался сделать соревновательную спортивную карьеру.
Я пытаюсь использовать тот факт, что разница между выборками в хвостах нормального распределения становится все меньше и меньше. Я использую это для вычисления вероятности, что кто-то быстрее Усэйна Болта существует, сравнивая Усэйна со вторым самым быстрым, третьим самым быстрым и так далее.
Чтобы сделать это, я пытаюсь вычислить наибольшее значение, которое существует за пределами «Усэйна Болта», взяв производную от CDF нормального распределения по , увеличивая ее до го (где составляет около 7 000 000 000 или число отсчетов меньше, чем «максимум» - логика этого описана на странице Википедии по проблеме танков в Германии, которая обобщает различные дистрибутивы), например:
Это правильный способ вычислить вероятность того, что кто-то существует быстрее, чем Усэйн Болт?
Есть ли название для такого рода вопросов за пределами "Немецкой проблемы с танками для других дистрибутивов"?
Есть ли хороший способ оценить стандартное отклонение от экстремальных выборок распределения? Найти информацию о самых быстрых бегах на 100 м всего времени легко, найти средние значения и отклонения трудно)
Спасибо за ваше терпение иметь дело с программистом без фона в теме.
Ответы:
Вопреки другим ответам, я бы сказал, что вы можете что-то сказать о способностях Bolts, учитывая имеющиеся данные. Прежде всего, давайте сузим ваш вопрос. Вы спрашиваете о самом быстром человеке, но, поскольку есть разница в распределении скоростей бега для мужчин и женщин, где лучшие женщины-бегуны кажутся немного медленнее, чем лучшие мужчины-бегуны, мы должны сосредоточиться на мужчинах-бегунах. Чтобы получить некоторые данные, мы можем посмотреть на лучшие летние показатели на 100 пробежках за последние 45 лет . Есть несколько вещей, чтобы заметить об этих данных:
Сначала давайте обсудим, как не анализировать эти данные. Вы могли заметить, что если мы построим график времени работы в зависимости от времени, мы увидим сильную линейную зависимость.
Это может привести к тому, что вы будете использовать линейную регрессию, чтобы предсказать, насколько лучше бегунов мы сможем наблюдать в следующие годы. Это, однако, было бы очень плохой идеей, которая неизбежно приведет вас к выводу, что примерно через две тысячи лет люди смогут пробежать 100 метров за ноль секунд, и после этого они начнут достигать отрицательного времени бега! Это, очевидно, абсурдно, поскольку мы можем представить, что существует какой-то биологический и физический предел наших возможностей, который нам неизвестен.
Как вы могли бы проанализировать эти данные? Во-первых, обратите внимание, что мы имеем дело с данными о минимальных значениях, поэтому мы должны использовать соответствующую модель для таких данных. Это приводит нас к рассмотрению моделей теории экстремальных значений (см., Например, книгу Стюарта Коулса « Введение в статистическое моделирование экстремальных значений »). Для этих данных можно принять обобщенное экстремальное распределение значений (GEV). Если где - независимые и одинаково распределенные случайные величины, тогда следует распределению GEV. Если вы заинтересованы в моделировании минимас, то если являются образцами минимас, тоY=max(X1,X2,…,Xn) X1,X2,…,Xn Yi Z1,Z2,…,Zk −Zi следите за распределением GEV для минимас Таким образом, мы можем приспособить распределение GEV к данным о скоростях бега, что приводит к хорошему совпадению (см. Ниже).
Если вы посмотрите на кумулятивное распределение, предложенное моделью, вы заметите, что лучшее время выполнения по Усэйну Болту находится в самом низком1% Хвост распределения. Так что, если мы будем придерживаться этих данных и анализа игрушечного примера, мы заключим, что гораздо меньшее время выполнения маловероятно (но, очевидно, возможно). Очевидная проблема этого анализа заключается в том, что он игнорирует тот факт, что из года в год мы наблюдаем улучшение лучших показателей времени работы. Это возвращает нас к проблеме, описанной в первой части ответа, то есть к тому, что допущение регрессионной модели здесь рискованно. Еще одна вещь, которая может быть улучшена, заключается в том, что мы можем использовать байесовский подход и исходить из информативного априора, который бы учитывал некоторые не зависящие от данных знания о физиологически возможных временах работы, которые могли бы еще не наблюдаться (но, насколько я знаю, это неизвестно в настоящее время). Наконец, подобная теория экстремальных значений уже использовалась в спортивных исследованиях, например, Einmahl and Magnus (2008) вОтчеты в легкой атлетике через статью экстремальной теории .
Вы могли бы возразить, что вы спрашивали не о вероятности более быстрого бега, а о вероятности наблюдения более быстрого бегуна. К сожалению, здесь мы мало что можем сделать, так как не знаем, какова вероятность того, что бегун станет профессиональным спортсменом, и ему будет доступно записанное время бега. Это не происходит случайно, и существует множество факторов, способствующих тому, что некоторые бегуны становятся профессиональными спортсменами, а некоторые нет (или даже то, что кому-то нравится бегать и бегать вообще). Для этого нам понадобятся подробные данные о бегунах для всего населения, более того, поскольку вы спрашиваете об экстремальных значениях распределения, данные должны быть очень большими. Поэтому я согласен с другими ответами.
источник
Мой первый инстинкт - это плохая идея, но позвольте мне объяснить, почему.
1) Вы хотите измерить ненаблюдаемую переменную, скрытый навык бега, с наблюдаемым, записанным временем бега. Это нормально, но: в немецкой проблеме с танками серийные номера генерируются из одного и того же равномерного распределения. В вашей задаче вы должны определить умение скрытой переменной (из 7 миллиардов человек) из наблюдаемой переменной продолжительности работы. В GTP известно несколько серийных номеров. В вашей задаче вы вообще не собрали никаких данных и просто работаете на максимуме (болт). Более того, вы, кажется, предполагаете, что этот ненаблюдаемый скрытый навык не коррелирует с фактическим временем пробега до такой степени, что возможно, что тот, кто никогда не бегал вообще, лучше, чем Болт. Это просто абсурдно!
2) Спортсмены не случайные выборки населения. Они тщательно отбираются путем нескольких испытаний. Если мы предположим, что каждый, кто способен вообще бегать, возможно, участвовал в гонках по крайней мере один раз в своей жизни, и что каждый человек принял решение о том, следует ли ему продолжать соревнование на более высоком уровне, основываясь на том, как часто или сколько он выигрывает гонки - тогда кажется невероятным, что Болт действительно самый быстрый человек.
Это только первые причины, которые приходят на ум. Честно говоря, с этим у тебя немного глупое дело. Невозможно измерить «вероятность» того, о чем вы говорите.
источник
Ответ - нет.
Вы предполагаете, что есть выборка от населения (спортсменов), и Болт является максимальным для этой выборки. Итак, вы ищете вероятность того, что максимальная численность населения больше максимальной выборки. Это твоя гипотеза.
Что если ваше предположение неверно и что выборка действительно была популяцией?
Я могу привести разумный аргумент, что каждый, кто может бежать, имел шанс победить его. Никто не сделал, так что он истинный максимум населения Земли.
Понятно, что спортсмены не случайная выборка. Я надеюсь, что нет никаких вопросов по этому поводу. Конечно, существует определенная степень случайности в том, как человек становится спортсменом. С другой стороны, если человек не спортсмен, его спортивные навыки и достижения не сравнятся со спортсменом. Я могу предположить, что кто-то МОЖЕТ ПОТЕНЦИАЛЬНО бежать быстрее, чем Болт, учитывая все условия для тренировок И РАБОТАЯ так же усердно, как Болт. Тем не менее, это нулевая вероятность, что вы потянете не спортсмена, и он победит Болта на дистанции 100 м в условиях легкой атлетики.
источник