С одной стороны, у меня есть регресс к среднему значению, а с другой - у меня ошибка игрока .
Ошибка Игрока определяется Миллером и Санджурджо (2019) как «ошибочное убеждение, что случайные последовательности имеют систематическую тенденцию к развороту, то есть, что полосы схожих результатов скорее заканчиваются, чем продолжаются». Например, упавшая монета стоит несколько Считается, что времена подряд непропорционально будут падать хвостом на следующем испытании.
У меня была хорошая производительность в последней игре, и, согласно среднему значению регрессии, вероятно, у меня будет худшая производительность в следующей игре.
Но в соответствии с ошибкой игрока: рассмотрим следующие две вероятности, если принять честную монету
- вероятность 20 голов, затем 1 хвост =
- вероятность 20 голов, затем 1 голова =
Затем...
Рассмотрим простой пример: класс учащихся сдает 100-элементный тест на предмет «верно / неверно» по предмету. Предположим, что все студенты выбирают случайным образом по всем вопросам. Тогда оценка каждого студента будет реализацией одного из набора независимых и одинаково распределенных случайных величин с ожидаемым средним значением 50.
Естественно, некоторые учащиеся получат баллы значительно выше 50, а некоторые существенно ниже 50 просто случайно. Если взять только 10% учеников, набравших наибольшее количество очков, и дать им второй тест, по которому они снова выбирают случайным образом все предметы, можно ожидать, что средний балл снова будет близок к 50.
Таким образом, среднее значение этих студентов будет «возвращаться» обратно к среднему значению всех студентов, которые прошли первоначальный тест. Независимо от того, что набрал учащийся по первоначальному тесту, лучший прогноз его оценки по второму тесту - 50.
В частности, если кто-то берет только 10% учащихся, набравших наибольшее количество очков, и дает им второй тест, по которому они снова выбирают случайным образом по всем предметам, средняя оценка, как ожидается, снова будет близка к 50.
В соответствии с ошибкой игрока, не следует ли ожидать одинаковую вероятность для выигрыша и не обязательно более 50?
Miller, JB & Sanjurjo, A. (2019). Как опыт подтверждает ошибочность игрока, когда пренебрегают размером выборки.
источник
Ответы:
Я думаю, что путаница может быть решена, если учесть, что концепция «регрессии к среднему» на самом деле не имеет ничего общего с прошлым. Это просто тавтологическое наблюдение, что на каждой итерации эксперимента мы ожидаем среднего результата. Таким образом, если у нас ранее был результат выше среднего, то мы ожидаем худшего результата, или если у нас был результат ниже среднего, мы ожидаем лучшего. Ключевым моментом является то, что само ожидание не зависит от какой-либо предыдущей истории, как это происходит в заблуждении игрока.
источник
the expectation itself does not depend on any previous history
иif we previously had an above average outcome then we expect a worse result
. Вы используете слово « ожидать» в обоих местах и говорите о прошлой / предыдущей истории в обоих местах.Если бы вы оказались в таком положении, как рациональный человек (и при условии честной монеты), вам лучше всего было бы просто угадать. Если бы вы оказались в таком положении, как суеверный игрок, вам лучше всего взглянуть на предыдущие события и попытаться оправдать свои рассуждения о прошлом - например, «Вау, головы горячие , время поднять!» или «Мы никак не увидим другие головы - вероятность такого рода полос невероятно мала!».
Ошибка игрока не понимает, что каждая отдельная цепочка из 20 монет бросает нас безумно маловероятно - например, очень маловероятно, чтобы перевернуть 10 голов, а затем 10 хвостов, очень маловероятно, чтобы перевернуть чередующиеся головы и хвосты, очень маловероятно, чтобы расколоться на 4, и т. Д. Это даже очень маловероятно, чтобы перевернуть HHTHHTTTHT .. потому что для любой строки есть только один способ для этого из многих различных результатов . Таким образом, объединение любого из них как «вероятного» или «маловероятного» является ошибкой, поскольку все они равновероятны.
Регрессия к среднему значению - это правильно обоснованное убеждение, что в конечном итоге ваши наблюдения должны сходиться к конечной ожидаемой величине. Например - моя ставка на то, что 10 из 20 подбрасываний монет - это хорошо, потому что есть много способов добиться этого. Ставка на 15 из 20 значительно менее вероятна, поскольку гораздо меньше строк, которые достигают этого итогового значения. Стоит отметить, что если вы сидите и подбрасываете (честные) монеты достаточно долго, вы в конечном итоге получите что-то примерно 50/50 - но у вас не будет чего-то, что не имеет «полос» или другого невероятного события в нем. В этом суть различий между этими двумя понятиями.
TL; DR : регрессия к среднему значению говорит о том, что со временем вы получите распределение, которое отражает ожидаемое в любом эксперименте. Ошибка Игрока (ошибочно) говорит о том, что каждый отдельный бросок монеты имеет память о предыдущих результатах, что должно повлиять на следующий независимый результат.
источник
Regression to the mean is the rightly-founded belief that in the long run, your observations should converge to a finite expected value
- То есть «ошибка игрока» - что после череды голов, хвостов теперь более вероятно, потому , что с попутным монеты было бы сходились ...Я всегда стараюсь помнить, что регрессия к среднему не является компенсационным механизмом для наблюдения за выбросами.
Нет причинно-следственной связи между выдающейся игрой, затем 50-50 после этого. Это просто полезный способ запомнить, что при выборке из распределения вы, скорее всего, увидите значения, близкие к среднему (подумайте о том, что здесь говорит неравенство Чебышева).
источник
Вот простой пример: вы решили бросить в общей сложности 200 монет. Пока что вы бросили 100 из них, и вам очень повезло: 100% пришли в голову (я знаю, это невероятно, но давайте просто все упростим).
Условно на 100 голов в 100 первых бросках вы получите 150 голов в конце игры. Экстремальным примером ошибки игрока может быть мысль о том, что вы все еще ожидаете всего 100 голов (т.е. ожидаемое значение до начала игры), даже после получения 100 в первые 100 бросков. Игрок ошибочно думает, что следующие 100 бросков должны быть хвостами. Примером регрессии к среднему значению (в данном контексте) является то, что ваш коэффициент 100%, как ожидается, упадет до 150/200 = 75% (то есть к среднему значению 50%), когда вы закончите игру.
источник
Я могу ошибаться, но я всегда думал, что разница заключается в допущении независимости.
В заблуждении Игрока проблема заключается в недопонимании независимости. Конечно, при большом количестве бросков N у вас будет около 50-50 раскола, но если случайно это не так, то мысль о том, что ваши следующие броски Т помогут выровнять шансы, неверна, потому что там каждый бросок монеты не зависит от предыдущий.
Регрессия к среднему - это, где я вижу это, некоторая идея, которая привлекает, зависит от предыдущих ничьих или предыдущего вычисленного среднего / значений. Например, давайте использовать процент стрельбы NBA. Если игрок А сделал в среднем 40% своих ударов за свою карьеру и начинает новый год, отстрелив 70% в своих первых 5 играх, разумно думать, что он вернется к среднему значению по своей карьере. Существуют зависимые факторы, которые могут и будут влиять на его игру: горячие / холодные полосы, игра товарища по команде, уверенность в себе и тот простой факт, что если бы он поддерживал 70% -ную стрельбу в течение года, он абсолютно уничтожил бы множество записей, которые просто невозможны физические подвиги (по текущим показателям способностей профессиональных баскетболистов). По мере того, как вы будете играть в больше игр, ваш процент стрельбы, вероятно, упадет ближе к вашей средней карьере.
источник
Ключевым моментом является то, что у нас нет никакой информации, которая поможет нам в следующем событии (ошибка игрока), потому что следующее событие не зависит от предыдущего события. Мы можем сделать разумное предположение о том, как пойдет серия испытаний. Это разумное предположение является средним или нашим ожидаемым средним результатом. Поэтому, когда мы наблюдаем отклонение среднего тренда назад к среднему, во времени / испытаниях, мы наблюдаем регрессию к среднему.
Как вы можете видеть, регрессия к среднему значению - это наблюдаемая серия действий , а не предсказатель. Чем больше будет проведено испытаний, тем больше будет приближаться нормальное / гауссовское распределение. Это означает, что я не делаю никаких предположений или предположений о том, каким будет следующий результат. Используя закон больших чисел, я могу теоретизировать, что, несмотря на то, что в настоящее время вещи могут развиваться в одном направлении, со временем все уравновесится. Когда они действительно уравновешивают себя, набор результатов вернулся к среднему значению. Здесь важно отметить, что мы не говорим, что будущие испытания зависят от прошлых результатов. Я просто наблюдаю за изменением баланса данных.
В ошибка игрока , как я понимаю , что это более непосредственное в его цели и направлена на предсказание будущих событий. Это отслеживает то, что игрок хочет. Обычно азартные игры в долгосрочной перспективе ориентированы на игрока, поэтому игрок хочет знать, каким будет следующее испытание, потому что он хочет извлечь выгоду из этого знания. Это приводит игрока к ложному предположению, что следующее испытание зависит от предыдущего испытания. Это может привести к нейтральному выбору, как:
Или выбор может быть корыстным:
Итак, как вы можете видеть, есть несколько ключевых отличий:
Регрессия к среднему не предполагает, что независимые испытания зависят от ошибки игрока.
Регрессия до среднего применяется к большому количеству данных / испытаний, где ошибка игрока связана с следующим испытанием.
Регрессия к среднему описывает то, что уже произошло. Заблуждение Игрока пытается предсказать будущее на основе ожидаемого среднего и прошлых результатов.
источник
Являются ли студенты с более высокими оценками, которые получают более высокие баллы на повторных тестах?
Вопрос получил существенное редактирование с момента последнего из шести ответов.
Отредактированный вопрос содержит пример регрессии к среднему значению в контексте оценок учеников по тесту « вопросов истинно-ложно» и повторной проверки лучших исполнителей на эквивалентном тесте. Повторный тест показывает значительно больше средних баллов для группы лучших исполнителей в первом тесте. В чем дело? Были ли студенты обманывать в первый раз? Нет, важно контролировать регрессию до среднего. Тестирование производительности для тестов с множественным выбором - это комбинация удачи в угадывании и способности / знания Некоторая часть оценок лучших исполнителей была обусловлена удачей, которая не обязательно повторялась во второй раз.100
Или они должны просто держаться подальше от колеса рулетки?
Давайте сначала предположим, что никаких навыков не было, что учащиеся просто подбрасывали (честные) монеты, чтобы определить свои ответы. Какова ожидаемая оценка? Итак, каждый ответ имеет вероятности быть правильным, поэтому мы ожидаем от или баллов .50% 50% 100 50
Но это ожидаемая ценность. Некоторые добьются большего успеха просто случайно. Вероятность правильной оценки не менее соответствии с биномиальным распределением составляет примерно . Таким образом, в группе из учеников ожидаемое число учеников, получающих оценку или выше, составляет .60% 2.8% 3000 60 85
Теперь давайте предположим, что на самом деле было студентов с оценкой или выше, и проведем повторную проверку. Каков ожидаемый результат при повторном тестировании по тому же методу бросания монет? Это все еще от ! Какова вероятность того, что студент, прошедший повторное тестирование таким образом, получит оценку выше ? Это все еще ! Таким образом, мы должны ожидать, что только из ( ) наберут как минимум при повторном тестировании.85 60% 50% 100 60% 2.8% 2 85 2.8%⋅85 60%
При такой настройке ошибочно предполагать, что ожидаемый балл при повторном тестировании отличается от ожидаемого балла в первом тесте - они оба составляют от . Ошибка игрока состоит в том, что он полагает, что удача студентов с высокими баллами с большей вероятностью будет компенсирована неудачей при повторном тестировании. При таком заблуждении вы ставите на ожидаемые результаты повторного тестирования ниже . Ошибочное мнение (здесь) может заключаться в том, что удача учеников с высокими баллами, скорее всего, продолжится, и ставка на ожидаемые результаты повторного тестирования будет выше .50% 100 50 50
Счастливые монеты и счастливые сальто
Реальность немного сложнее. Давайте обновим нашу модель. Во-первых, не имеет значения, какие будут реальные ответы, если мы просто подбрасываем монеты, поэтому давайте просто наберем количество голов. Пока что модель эквивалентна. Теперь давайте предположим, что монет склонны быть головами с вероятностью (хорошие монеты ), монет склонны быть головами с вероятностью (плохие монеты ), а имеют равную вероятность быть головами или хвосты (ярмарка монет1000 55% G 1000 45% B 1000 F ) и случайным образом распределить их. Это аналогично предположению о более высоких и более низких способностях / знаниях в тестовом примере, но легче правильно рассуждать о неодушевленных предметах.
Ожидаемый балл для любого учащегося с учетом случайного распределения. Таким образом, ожидаемый результат первого теста не изменился. Теперь вероятность правильного выигрыша не менее , опять-таки с использованием биномиального распределения, составляет для хороших монет, для плохих монет и, конечно, для справедливых монет. Вероятность выигрыша, по крайней мере, составляет , поскольку случайным образом распределено одинаковое количество монет каждого типа, их среднее значение или . Ожидаемое количество студентов, набравших не менее составляет .(55⋅1000+45⋅1000+50⋅1000)/3000=50 60% 18.3% 0.2% 2.8% 60% 7.1% 60% 21
Теперь, если у нас действительно есть выигрыш, по крайней мере, при такой настройке смещенных монет, каков ожидаемый результат при повторном тестировании? Больше не от ! Теперь вы можете решить это с помощью теоремы Байеса, но, поскольку мы использовали группы одинакового размера, вероятность наличия типа монеты для данного результата (здесь) пропорциональна вероятности результата для данного типа монеты. Другими словами, есть вероятность что те, кто набрал не менее 60%, имели хорошую монету, имели плохую монету, а имели хорошую монету. Таким образом, ожидаемое значение баллов при повторном тестировании21 60% 50% 100 86%=18.3%/(18.3%+0.2%+2.8%) 1%=0.2%/(18.3%+0.2%+2.8%) 13% 86%⋅55+1%⋅45+13%⋅50=54.25 из . Это ниже, чем фактические результаты первого раунда, по крайней мере, , но выше, чем ожидаемое значение очков перед первым туром, .100 60 50
Таким образом, даже если некоторые монеты лучше других, случайность в монетах переворачивается, что означает, что выбор лучших исполнителей из теста все равно будет демонстрировать некоторую регрессию к среднему значению при повторном тестировании. В этой модифицированной модели «горячие руки» больше не являются явной ошибкой - лучший результат в первом раунде означает более высокую вероятность получения хорошей монеты! Однако заблуждение игрока остается ошибкой - нельзя ожидать, что те, кто испытал удачу, получат компенсацию за неудачу при повторном тестировании.
источник
Они говорят то же самое. Вы были в основном сбиты с толку, потому что ни один эксперимент в примере с броском монеты не дал бы экстремального результата (H / T 50/50). Измените его на «подбрасывание десяти честных монет одновременно в каждом эксперименте», и игроки хотят, чтобы все они были правильными. Тогда крайним измерением будет то, что вы увидите, что все они - головы.
Ошибка игрока: рассматривайте каждый исход игры (результат подбрасывания монеты) как IID . Если вы уже знаете о распределении этих общих IID, то следующий прогноз должен исходить непосредственно из известного распределения и не иметь ничего общего с историческими (или будущими) результатами (иначе говоря, с другими IID).
Регрессия к среднему значению: обрабатывайте каждый результат теста как IID (так как предполагается, что учащийся угадывает случайно и не имеет реальных навыков). Если вы уже знаете о распределении этих общих IID, то следующий прогноз основан на известном распределении и не имеет ничего общего с историческими (или будущими) результатами (иначе говоря, с другими IID) ( точно так же, как и раньше ). Но согласно CLT , если вы наблюдали экстремальные значения в одном измерении (например, случайно вы отбирали только 10% лучших учеников из первого теста), вы должны знать, что результат вашего следующего наблюдения / измерения все еще будет получен из известного распределение (и, следовательно, более вероятно, будет ближе к среднему, чем пребывание в крайнем случае).
По сути, они оба говорят, что следующим измерением будет распределение, а не прошлые результаты.
источник
Пусть X и Y - две одинаковые случайные величины на [0,1]. Предположим, мы наблюдаем их один за другим.
Ошибка игрока: P (Y | X)! = P (Y) Это, конечно, бессмыслица, потому что X и Y независимы.
Регрессия к среднему: P (Y <X | X = 1)! = P (Y <X) Это верно: LHS равно 1, LHS <1
источник
Благодаря вашим ответам, я думаю, я смог понять разницу между регрессией среднего и ошибкой игрока. Более того, я построил базу данных, чтобы помочь мне проиллюстрировать «реальный» случай.
Я построил эту ситуацию: я собрал 1000 студентов и поставил их на тестирование, случайным образом отвечая на вопросы.
Баллы теста варьируются от 01 до 05. Поскольку они случайным образом отвечают на вопросы, каждый балл с вероятностью 20% может быть достигнут. Таким образом, для первого теста число студентов с результатом 05 должно быть примерно 200
(1.1)1000∗0,20
(1.2)200
У меня было 196 учеников со счетом 05, что очень близко к ожидаемым 200 ученикам.
Таким образом, я поставил эти 196 студентов повторить тест, ожидается 39 студентов с оценкой 05.
(2.1)196∗0,20
(2.2)39
Ну, по результатам я получил 42 ученика, что находится в пределах ожидаемого.
Для тех, кто получил 05 баллов, я ставлю их, чтобы повторить тест и так далее ...
Поэтому ожидаемые цифры были:
Ожидаемый возврат 03
(3.1)42∗0,20
(3.2)8
(3.3) Результаты (8)
Ожидаемый возврат 04
(4.1)8∗0,20
(4.2)1,2
(4.3) Результаты (2)
Ожидаемый возврат 05
(4.1)2∗0,20
(4.2)0,1
(4.3) Результаты (0)
Если я ожидаю, что ученик получит 05 баллов четыре раза, я столкнусь с вероятностью , то есть 1,2 ученика на 1000. Однако, если я ожидаю, что ученик получит 05 баллов пять раз, я должно быть не менее 3,500 образцов, чтобы набрать 1,12 студента со счетом 05 во всех тестах0,204
(5.1.)0,205=0,00032
(5.2.)0,00032∗3500=1.2
Поэтому вероятность того, что один студент получит оценку 05 во всех 05 тестах, не имеет ничего общего с его последней оценкой. Я имею в виду, что я не должен рассчитывать вероятность каждого теста в отдельности. Я должен посмотреть на эти 05 тестов, как одно событие, и рассчитать вероятность этого события.
источник