Существует ли кто-то быстрее, чем Усэйн Болт сегодня?

РЕДАКТИРОВАТЬ: Меня больше интересуют технические вопросы и методология определения вероятности «истинного» максимума в данной популяции с учетом выборочной статистики. Есть проблемы с оценкой вероятности более быстрых бегунов, чем г-н Болт, по рекордным временам броска, которые являются одновременно очевидными и тонкими. Забавьте меня, воображая, что это не так.

Усэйн Болт - самый быстрый человек, измеренный за 100 м. Однако, учитывая небольшое количество спортсменов, кажется вероятным, что «настоящий» самый быстрый человек живёт где-то на диване и никогда не пытался сделать соревновательную спортивную карьеру.

Я пытаюсь использовать тот факт, что разница между выборками в хвостах нормального распределения становится все меньше и меньше. Я использую это для вычисления вероятности, что кто-то быстрее Усэйна Болта существует, сравнивая Усэйна со вторым самым быстрым, третьим самым быстрым и так далее.

Чтобы сделать это, я пытаюсь вычислить наибольшее значение, которое существует за пределами «Усэйна Болта», взяв производную от CDF нормального распределения по , увеличивая ее до го (где составляет около 7 000 000 000 или число отсчетов меньше, чем «максимум» - логика этого описана на странице Википедии по проблеме танков в Германии, которая обобщает различные дистрибутивы), например: $y$ $n$ $n$

$\int_{0}^{\infty}y f_{Y_N} (y)dy = \lambda n \int_{0}^{\infty} y \left [ \tfrac12\left[1 + \operatorname{erf}\left( \frac{y-\mu}{\sigma\sqrt{2}}\right)\right] \right ]^{n-1} \frac{1}{\sqrt{2\pi\sigma^2}}\, e^{-\frac{(y - \mu)^2}{2 \sigma^2}}dy$

Это правильный способ вычислить вероятность того, что кто-то существует быстрее, чем Усэйн Болт?
Есть ли название для такого рода вопросов за пределами "Немецкой проблемы с танками для других дистрибутивов"?
Есть ли хороший способ оценить стандартное отклонение от экстремальных выборок распределения? Найти информацию о самых быстрых бегах на 100 м всего времени легко, найти средние значения и отклонения трудно)

Спасибо за ваше терпение иметь дело с программистом без фона в теме.

normal-distribution maximum --V -
источник

Вы делаете предположение, что являетесь ли вы спортсменом, не зависит от вашей скорости бега. Что нормально, но сомнительно.

Bayerj

@bayerj Да, я думаю, довольно ясно, что это был бы очень плохой способ предсказать следующего олимпийского претендента. Тем не менее, это кажется интересным вопросом в целом, и я пытаюсь ответить на него в меру своих возможностей, надеясь, что кто-то пожалеет и поможет мне в этом.

--V -

Я считаю этот вопрос некорректным, поскольку здесь термин «быстрый (э))» относится к генетическому потенциалу или спортивному таланту, а не к реальной способности достичь высокой скорости.

Digio

@Digio Заменить «быстрее» на «имеет более высокий серийный номер», предполагая, что какая-то компания «Фубарко» производит набор продуктов с нормально распределенными серийными номерами.

--V -

Мотивация вопроса с примером, как правило, хорошая вещь. Однако этот пример, кажется, отвлекает людей от того, что вы действительно пытаетесь спросить. Не могли бы вы отредактировать это, чтобы обсудить ситуацию, с которой вы действительно столкнулись?

gung - Восстановить Монику

Ответы:

Вопреки другим ответам, я бы сказал, что вы можете что-то сказать о способностях Bolts, учитывая имеющиеся данные. Прежде всего, давайте сузим ваш вопрос. Вы спрашиваете о самом быстром человеке, но, поскольку есть разница в распределении скоростей бега для мужчин и женщин, где лучшие женщины-бегуны кажутся немного медленнее, чем лучшие мужчины-бегуны, мы должны сосредоточиться на мужчинах-бегунах. Чтобы получить некоторые данные, мы можем посмотреть на лучшие летние показатели на 100 пробежках за последние 45 лет . Есть несколько вещей, чтобы заметить об этих данных:

Это лучшие времена бега, поэтому они говорят не о способностях всех людей, а о минимально достигнутых скоростях.
Мы предполагаем, что эти данные отражают выборку лучших бегунов в мире. Хотя могло случиться, что были даже лучшие бегуны, которые не участвовали в чемпионатах, это предположение кажется довольно разумным.

Сначала давайте обсудим, как не анализировать эти данные. Вы могли заметить, что если мы построим график времени работы в зависимости от времени, мы увидим сильную линейную зависимость.

Это может привести к тому, что вы будете использовать линейную регрессию, чтобы предсказать, насколько лучше бегунов мы сможем наблюдать в следующие годы. Это, однако, было бы очень плохой идеей, которая неизбежно приведет вас к выводу, что примерно через две тысячи лет люди смогут пробежать 100 метров за ноль секунд, и после этого они начнут достигать отрицательного времени бега! Это, очевидно, абсурдно, поскольку мы можем представить, что существует какой-то биологический и физический предел наших возможностей, который нам неизвестен.

Как вы могли бы проанализировать эти данные? Во-первых, обратите внимание, что мы имеем дело с данными о минимальных значениях, поэтому мы должны использовать соответствующую модель для таких данных. Это приводит нас к рассмотрению моделей теории экстремальных значений (см., Например, книгу Стюарта Коулса « Введение в статистическое моделирование экстремальных значений »). Для этих данных можно принять обобщенное экстремальное распределение значений (GEV). Если где - независимые и одинаково распределенные случайные величины, тогда следует распределению GEV. Если вы заинтересованы в моделировании минимас, то если являются образцами минимас, то $Y = \max(X_1,X_2,\dots,X_n)$ $X_1,X_2,\dots,X_n$ $Y_i$ $Z_1,Z_2,\dots,Z_k$ $-Z_i$ следите за распределением GEV для минимас Таким образом, мы можем приспособить распределение GEV к данным о скоростях бега, что приводит к хорошему совпадению (см. Ниже).

Если вы посмотрите на кумулятивное распределение, предложенное моделью, вы заметите, что лучшее время выполнения по Усэйну Болту находится в самом низком $1\%$ Хвост распределения. Так что, если мы будем придерживаться этих данных и анализа игрушечного примера, мы заключим, что гораздо меньшее время выполнения маловероятно (но, очевидно, возможно). Очевидная проблема этого анализа заключается в том, что он игнорирует тот факт, что из года в год мы наблюдаем улучшение лучших показателей времени работы. Это возвращает нас к проблеме, описанной в первой части ответа, то есть к тому, что допущение регрессионной модели здесь рискованно. Еще одна вещь, которая может быть улучшена, заключается в том, что мы можем использовать байесовский подход и исходить из информативного априора, который бы учитывал некоторые не зависящие от данных знания о физиологически возможных временах работы, которые могли бы еще не наблюдаться (но, насколько я знаю, это неизвестно в настоящее время). Наконец, подобная теория экстремальных значений уже использовалась в спортивных исследованиях, например, Einmahl and Magnus (2008) вОтчеты в легкой атлетике через статью экстремальной теории .

Вы могли бы возразить, что вы спрашивали не о вероятности более быстрого бега, а о вероятности наблюдения более быстрого бегуна. К сожалению, здесь мы мало что можем сделать, так как не знаем, какова вероятность того, что бегун станет профессиональным спортсменом, и ему будет доступно записанное время бега. Это не происходит случайно, и существует множество факторов, способствующих тому, что некоторые бегуны становятся профессиональными спортсменами, а некоторые нет (или даже то, что кому-то нравится бегать и бегать вообще). Для этого нам понадобятся подробные данные о бегунах для всего населения, более того, поскольку вы спрашиваете об экстремальных значениях распределения, данные должны быть очень большими. Поэтому я согласен с другими ответами.

Тим
источник

Мой первый инстинкт - это плохая идея, но позвольте мне объяснить, почему.

1) Вы хотите измерить ненаблюдаемую переменную, скрытый навык бега, с наблюдаемым, записанным временем бега. Это нормально, но: в немецкой проблеме с танками серийные номера генерируются из одного и того же равномерного распределения. В вашей задаче вы должны определить умение скрытой переменной (из 7 миллиардов человек) из наблюдаемой переменной продолжительности работы. В GTP известно несколько серийных номеров. В вашей задаче вы вообще не собрали никаких данных и просто работаете на максимуме (болт). Более того, вы, кажется, предполагаете, что этот ненаблюдаемый скрытый навык не коррелирует с фактическим временем пробега до такой степени, что возможно, что тот, кто никогда не бегал вообще, лучше, чем Болт. Это просто абсурдно!

2) Спортсмены не случайные выборки населения. Они тщательно отбираются путем нескольких испытаний. Если мы предположим, что каждый, кто способен вообще бегать, возможно, участвовал в гонках по крайней мере один раз в своей жизни, и что каждый человек принял решение о том, следует ли ему продолжать соревнование на более высоком уровне, основываясь на том, как часто или сколько он выигрывает гонки - тогда кажется невероятным, что Болт действительно самый быстрый человек.

Это только первые причины, которые приходят на ум. Честно говоря, с этим у тебя немного глупое дело. Невозможно измерить «вероятность» того, о чем вы говорите.

вырожденный гессиан
источник

Другой респондент сделал аналогичные замечания, и это, несомненно, правда, что оценка вероятности того, что кто-то существует быстрее, чем мистер Болт на этой основе, очень ошибочна. Также было бы более интересно узнать, является ли техническая логика прогнозирования, основанная на этих экстремальных значениях, правильной в принципе.

--V -

Тогда я бы предложил абстрагироваться от вопроса, чтобы понять суть того, что вы на самом деле пытаетесь задать, так как контекст будет сильно отвлекать. Мне все еще не ясно, что представляет собой «нормальное распределение», о котором вы говорите. Фактическое время выполнения? Ходовые способности спортсменов?

вырожденный

-2

Ответ - нет.

Вы предполагаете, что есть выборка от населения (спортсменов), и Болт является максимальным для этой выборки. Итак, вы ищете вероятность того, что максимальная численность населения больше максимальной выборки. Это твоя гипотеза.

Что если ваше предположение неверно и что выборка действительно была популяцией?

Я могу привести разумный аргумент, что каждый, кто может бежать, имел шанс победить его. Никто не сделал, так что он истинный максимум населения Земли.

Понятно, что спортсмены не случайная выборка. Я надеюсь, что нет никаких вопросов по этому поводу. Конечно, существует определенная степень случайности в том, как человек становится спортсменом. С другой стороны, если человек не спортсмен, его спортивные навыки и достижения не сравнятся со спортсменом. Я могу предположить, что кто-то МОЖЕТ ПОТЕНЦИАЛЬНО бежать быстрее, чем Болт, учитывая все условия для тренировок И РАБОТАЯ так же усердно, как Болт. Тем не менее, это нулевая вероятность, что вы потянете не спортсмена, и он победит Болта на дистанции 100 м в условиях легкой атлетики.

Аксакал
источник

Меня больше интересует методология, которая стоит за этим, представьте, что танки, серийные номера которых обычно распределяются с дубликатами вместо скорости бега, может быть :)

ŹV -