Какой реальный пример «переоснащения»?

107

Я вроде понимаю, что означает «переоснащение», но мне нужна помощь, чтобы найти пример из реальной жизни, который относится к переоснащению.

overfitting user3851283
источник

12

Возможно, вы могли бы объяснить, что вы «вроде как понимаете» относительно «что значит переоснащение», чтобы люди могли обращаться к тем частям, которые вы не понимаете, не догадываясь, что это может быть?

Гоангит

3

@ssdecontrol Ложная корреляция не является чрезмерной. Фактически, ложная корреляция не должна включать явную модель, и неявная модель обычно представляет собой прямую линию с двумя параметрами.

Ник Кокс

1

@whuber: Возможно, это было бы более уместно для обсуждения мета, но я был удивлен, увидев, что вы преобразовали этот пост в вики сообщества. Не означает ли это, что ОП не получит повышение репутации для будущих голосов? Для меня это выглядит почти как «наказание» для него; в чем причина?

амеба

4

@amoeba Это не наказание: очевидно, что этот вопрос не имеет ни одного правильного или канонического ответа. В своем первоначальном виде в качестве вопроса, не относящегося к ХО, в результате он был не по теме - и должен был быть быстро закрыт, к слову, - но поскольку может иметь смысл иметь несколько хороших примеров, созданных коллективно сообществом, придающих статус ХО вместо закрытия это кажется разумным решением.

whuber

17

Пока очень немногие из этих ответов (только два из 11!) Даже пытаются ответить на вопрос, который требует реального примера. Это означает не симуляцию, не теоретический пример, не карикатуру, а серьезно примененную модель к фактическим данным. Также обратите внимание, что этот вопрос явно пытается увести ответы от объяснений того, что такое переоснащение.

whuber

96

Вот хороший пример моделей временных рядов президентских выборов от xkcd: введите описание изображения здесь

Было только 56 президентских выборов и 43 президента. Это не много данных для изучения. Когда пространство предикторов расширяется и включает в себя такие вещи, как наличие фальшивых зубов и значение имени в скрэббл-точках, модели довольно легко перейти от подгонки обобщаемых свойств данных (сигнала) и начать сопоставление шума. Когда это произойдет, соответствие исторических данных может улучшиться, но модель потерпит неудачу, когда она будет делать выводы о будущих президентских выборах.

Дмитрий В. Мастеров
источник

15

Я думаю, что вы должны добавить кое-что о смещении образца, чтобы объяснить, как это связано с переоснащением. В простом мультфильме отсутствует объяснение.

Нил Слэйтер

5

Приятной особенностью этого примера является то, что он демонстрирует разницу между переоснащением и сложностью. Правило «Как идет Калифорния, так идет и нация» простое, но все же неоправданное.

Том Минка

2

@TomMinka на самом деле переоснащение может быть вызвано сложностью (модель, слишком сложная, чтобы вместить слишком простые данные, таким образом, дополнительные параметры будут соответствовать любому, что есть под рукой) или, как вы указали, шумными функциями, которые получают больше веса при принятии решения, чем уместного функции. И есть много других возможных источников переоснащения (внутренняя дисперсия данных или модели, данные, не относящиеся к целевой цели и т. Д.). Я думаю , мы должны сказать , что есть переобучения сек , а не только переобучение (что означает , что есть только одна причина, которая часто не является правильным).

Габорист

80

Моим фаворитом был пример Matlab для численности населения США во времени переписи:

Линейная модель довольно хороша
Квадратичная модель ближе
Квартическая модель предсказывает полное уничтожение, начиная со следующего года

(По крайней мере, я искренне надеюсь, что это пример переоснащения)

http://www.mathworks.com/help/curvefit/examples/polynomial-curve-fitting.html#zmw57dd0e115 введите описание изображения здесь

прототип
источник

1

Просто чтобы прояснить это точно под графиком, они действительно говорят: «Поведение подгонки полинома шестой степени за пределы диапазона данных делает его плохим выбором для экстраполяции, и вы можете отказаться от этого

подбора

49

Исследование Chen et al. (2013) подгоняет два кубика к предполагаемому разрыву в ожидаемой продолжительности жизни как функции широты.

Чен Й., Эбенштейн А., Гринстоун М. и Ли, Х. 2013 г. Данные о влиянии устойчивого воздействия загрязнения воздуха на продолжительность жизни в рамках политики Китая по реке Хуай. Труды Национальной академии наук 110: 12936–12941. Абстрактные

Несмотря на его публикацию в выдающемся журнале и т. Д., Его молчаливое одобрение выдающимися людьми и т. Д., Я все равно представляю это в качестве наглядного примера переприбора.

Контрольный знак - неправдоподобие кубиков. Подгонка кубического неявно предполагает, что есть некоторая причина, по которой ожидаемая продолжительность жизни будет меняться как полином третьей степени широты, в которой вы живете. Это кажется неправдоподобным: нелегко представить правдоподобный физический механизм, который мог бы вызвать такой эффект.

См. Также следующий пост в блоге для более подробного анализа этой статьи: Фактические данные о влиянии устойчивого использования полиномиальной регрессии на причинно-следственную связь (утверждение, что нагревание угля сокращает продолжительность жизни на 5 лет для полумиллиарда человек) .

Ник Кокс
источник

5

+1 Эндрю Гельман даже написал один или два сообщения в блоге о том, почему это неправдоподобно. Вот один из них: andrewgelman.com/2013/08/05/…

Восстановить Монику

@ user777 Блог Гельмана, наверное, как я впервые услышал об этом. Но я подумал, что наиболее уместно дать ссылку, добавить комментарий к моему личному комментарию и позволить людям судить самим.

Ник Кокс

1

Я сократил редактирование @DW, в котором были представлены комментарии об ожидаемой продолжительности жизни в разных странах, о чем совсем не говорится в статье.

Ник Кокс

2

Другой пример, который я считаю иллюстративным (хотя потенциально более надуманным, чем «реальный мир»), - это соревнования по прогнозированию, которые дают промежуточные результаты - например, kaggle. Обычно есть люди, которые оптимизируют результаты в таблице лидеров, но они не являются победителями в выборке. Роб Хиндман немного обсудил это. Это требует более углубленной перспективы, чем, я думаю, здесь хочет ОП.

Энди Ш

2

Я как раз собирался опубликовать статью Гельмана и Имбенса, которая вышла из этого: nber.org/papers/w20405 (gated, к сожалению)

shadowtalker

38

В статье от 14 марта 2014 года в журнале « Наука» Дэвид Лазер, Райан Кеннеди, Гари Кинг и Алессандро Веспиньяни выявили проблемы в Google Flu Trends, которые они связывают с переобучением.

фигура

Вот как они рассказывают историю, включая их объяснение природы переоснащения и почему это привело к сбою алгоритма:

В феврале 2013 года ... Nature сообщила, что GFT прогнозирует более чем удвоенную долю посещений врачей по поводу гриппоподобных заболеваний (ILI), чем Центры по контролю и профилактике заболеваний (CDC) .... Это произошло несмотря на то, что GFT был построен для прогнозирования отчетов CDC. ...

По сути, методология заключалась в том, чтобы найти наилучшие совпадения среди 50 миллионов поисковых терминов, чтобы соответствовать 1152 точкам данных. Шансы на нахождение поисковых терминов, которые соответствуют склонности к гриппу, но структурно не связаны и поэтому не предсказывают будущее, были достаточно высоки. Фактически, разработчики GFT сообщают об исключении сезонных поисковых терминов, не связанных с гриппом, но тесно связанных с данными CDC, такими как данные о баскетболе в средней школе. Это должно было стать предупреждением о том, что большие данные превышают небольшое количество случаев - стандартная проблема при анализе данных. Этот специальный метод исключения специфических поисковых терминов потерпел неудачу, когда GFT полностью пропустил несезонную пандемию гриппа A-H1N1 2009 года.

[Акцент добавлен.]

whuber
источник

3

К сожалению, этот пример имеет некоторые проблемы. В документе предлагаются две довольно разные причины, по которым GFT делал плохие прогнозы: переоснащение и изменения в поисковой системе. Авторы признают, что они не в состоянии определить, какая причина (если таковая имеется) является правильной, так что это по сути спекуляция. Кроме того, параграф о переоснащении относится к исходной версии системы, в то время как прогнозы на графике делались с использованием модифицированной системы.

Том Минка

1

@Tom Статья не написана так, как будто утверждение о переоснащении является спекуляцией: авторы категорически утверждают это. Я думаю, что это разумное утверждение. Они также обращаются к причине, почему они должны быть несколько спекулятивными: Google не был открыт или прозрачен в отношении алгоритма. Мне кажется несущественным для нынешней цели, произошло ли переоснащение только в одной или нескольких версиях, но, насколько я помню, авторы также обращаются к этому и указывают на свидетельства продолжения переоснащения в текущем алгоритме.

whuber

2

В статье только говорится, что переоснащение является стандартной проблемой в анализе данных. Он не утверждает, что причиной было переоснащение. Ссылка (2) углубляется в детали, но опять же говорит, что переоснащение - это только «возможная проблема», с утверждением «Поскольку алгоритм поиска и результирующие термины запроса, которые использовались для определения исходных и обновленных моделей GFT, остаются нераскрытыми, Трудно определить причины неоптимальной производительности системы и дать рекомендации по ее улучшению ».

Том Минка

@ Я буду придерживаться приведенной здесь цитаты, которая является точной и адекватной поддержкой того, почему модель Google Flu заслуживает рассмотрения в данном контексте.

whuber

Интересная дискуссия. Я просто добавлю, что график может лучше поддерживать аргумент, если линии помечены.

rolando2

32

Я видел это изображение несколько недель назад и подумал, что оно довольно актуально для рассматриваемого вопроса.

мем фото

Вместо линейного подбора последовательности она была снабжена квартичным полиномом, который идеально подходил, но приводил к явно нелепому ответу.

Март хо
источник

12

Это не отвечает на заданный вопрос, и может быть лучше в качестве комментария или вообще не публиковаться. Это не дает реального примера переоснащения (о чем и просил вопрос). Это также не объясняет, как пример изображения имеет отношение к переоснащению. Наконец, это очень коротко. Мы предпочитаем подробные, подробные ответы, которые отвечают на заданный вопрос, а не просто обсуждение, связанное с этим вопросом.

DW

9

На самом деле это именно тот случай переобучения из-за слишком сложной модели, так как вы можете построить бесконечность функций высшего порядка (нелинейных), чтобы генерировать бесконечное число различных последних членов последовательности, в то же время подгоняя другие (известные) термины, используя интерполяцию Лагранжа, как описано здесь .

Габорист

@ user1121352 В карикатуре полином высокого порядка является истинной моделью, так что речь идет не о чрезмерной подгонке. Ответ , такие как «9» (следующий нечетное число) или «11» (следующее нечетное простое число) будет фактически под -креплением , поскольку он использует слишком простую модель для прогнозирования следующего значения. Мультфильм на самом деле иллюстрирует противоположный случай, что более сложная модель может быть правдой.

Восстановить Монику

8

Quartic полином (как я интерпретировал) предназначен для смешного решения, так как очевидный ответ, который любой даст, прежде чем увидеть смешное решение будет 9 (или любое другое значение OEIS). Я предположил, что формат "дож" передал сарказм, но мы ясно видим, что Закон По действует здесь.

Март, Ho

2

Это именно то, что я пытаюсь сделать, это то, что мы не знаем, что такое истинная функция. Если вы проводите оригинальный анализ, у вас нет такого ресурса, как OEIS, к которому можно обратиться за правдой: именно это пытается установить ваша модель. Я ценю, что карикатура пытается сарказма, но размещение карикатуры в этом конкретном обсуждении раскрывает важную тонкость вопроса о переоснащении и статистическом моделировании в целом. Намерение его первоначального создателя не имеет значения, потому что вы реконтекстуализировали его здесь!

Восстановить Монику

22

Для меня лучший пример - система Птолемея в астрономии. Птолемей предположил, что Земля находится в центре вселенной, и создал сложную систему вложенных круговых орбит, которая довольно хорошо объясняет движения объекта на небе. Астрономам приходилось добавлять круги, чтобы объяснить отклонение, пока однажды оно не стало настолько запутанным, что люди начали сомневаться в этом. Именно тогда Коперник придумал более реалистичную модель.

Это лучший пример переоснащения для меня. Вы не можете переписать процесс генерирования данных (DGP) на данные. Вы можете использовать только неправильно указанную модель. Почти все наши модели в социальных науках неправильно определены, поэтому ключ должен помнить об этом и сохранять их экономными. Не пытаться охватить каждый аспект набора данных, но попытаться охватить основные функции путем упрощения.

Аксакал
источник

15

Это не похоже на пример переоснащения. Нет ничего плохого в том, что система Птолемея является прогностической моделью: она сложна только потому, что система координат является геоцентрической, а не начинается с галактического центра масс. Проблема, поэтому, состоит в том, что точное, законное соответствие было сделано с чрезмерно сложной моделью. (Эллипсы намного проще, чем эпициклы.) Найти настоящую нелинейную модель - настоящая проблема!

whuber

1

В итоге у вас будет много кругов, чтобы смоделировать орбиты спутников Юпитера в системе Птолемея.

Аксакал

17

Это верно - но на первый взгляд, это не обязательно переоснащение. Кислотный тест заключается в предсказаниях будущих значений, которые в этой системе работали достаточно хорошо, чтобы выдержать 1400 лет. Данные пригодны не тогда, когда модель очень сложна, но когда она настолько гибка, что, собирая посторонние детали, она дает гораздо более неточные прогнозы, чем можно было бы ожидать от анализа остатков модели на данных обучения.

whuber

2

E Y = \sum_{k = 0}^{9} β_{k} x^{i}

$\operatorname{E}Y=\sum_{k=0}^9 \beta_k x^i$

2

E Y = \sum_{k = 0}^{9} β_{k} x^{k}

$\operatorname{E}Y=\sum_{k=0}^9 \beta_k x^k$

x

$x$

22

Допустим, у вас есть 100 точек на графике.

Вы могли бы сказать: хм, я хочу предсказать следующий.

с линией
с полиномом 2-го порядка
с полиномом 3-го порядка
...
с полиномом 100-го порядка

Здесь вы можете увидеть упрощенную иллюстрацию для этого примера: введите описание изображения здесь

Чем выше порядок полиномов, тем лучше он будет соответствовать существующим точкам.

Тем не менее, полиномы высокого порядка, несмотря на то, что они выглядят лучшими моделями для точек, на самом деле их превосходят. Он моделирует шум, а не истинное распределение данных.

Как следствие, если вы добавите новую точку на график с вашей идеально подходящей кривой, она, вероятно, будет дальше от кривой, чем если бы вы использовали более простой полином низкого порядка.

арно
источник

«Как следствие, если вы добавите новую точку на график с вашей идеально подходящей кривой, она, вероятно, будет дальше от кривой, чем если бы вы использовали более простой полином низкого порядка» - более того, это все еще верно, даже если процесс генерирования данных для новой точки (то есть, отношения в населении) на самом деле был полиномом большой мощности, подобным тому, который вы (над) установили.

Серебряная рыбка

19

Картинки здесь на самом деле неверны - например, полином из 9 градусов изображен только как кусочно-линейная функция, но я подозреваю, что в действительности он должен дико колебаться вверх и вниз в диапазонах между точками. Вы должны увидеть этот эффект и в 5-градусном полиноме.

Кен Уильямс

17

Анализ, который, возможно, способствовал катастрофе на Фукусиме, является примером переоснащения. В науке о Земле существует хорошо известная взаимосвязь, которая описывает вероятность землетрясений определенного размера, учитывая наблюдаемую частоту "меньших" землетрясений. Это известно как отношение Гутенберга-Рихтера, и оно обеспечивает прямолинейное бревно в течение многих десятилетий. Анализ риска землетрясения вблизи реактора (эта диаграмма из превосходной книги Нейта Сильвера «Сигнал и шум») показывает «излом» в данных. Игнорирование излома приводит к оценке годового риска землетрясения магнитудой 9 баллов как 1 к 300 - определенно, к чему нужно готовиться. Тем не мение, переоснащение линии с двойным уклоном (как это, очевидно, было сделано при первоначальной оценке рисков для реакторов) снижает прогноз риска примерно до 1 на 13 000 лет. Никто не может обвинить инженеров в том, что они не спроектировали реакторы, чтобы противостоять такому маловероятному событию, - но определенно следует обвинить статистиков, которые переоснастили (а затем экстраполировали) данные ...

введите описание изображения здесь

Floris
источник

Является ли это убедительным, что модель с двойным уклоном была подходящей? Излом заметный; Я предполагаю, что если бы каждый отрезок линии оценивался, скажем, в 3 балла каждый, вы бы получили более точные прогнозы относительно задержки, чем при оценке одной линии. (Конечно, последующее наблюдение события «1 на 13 000 лет» оспаривает это! Но это трудно интерпретировать, поскольку мы не пересматривали бы эту модель, если бы этого не произошло.) Если бы существовали физические причины игнорировать воспринимаемый излом, тогда случай, когда это было переобучение, сильнее - я не знаю, насколько хорошо такие данные обычно соответствуют идеальным отношениям Гутенберга-Рихтера.

Серебряная рыба

Это очень наглядно иллюстрирует опасности экстраполяции и необходимость функции потерь, которая учитывает серьезность последствий ошибки ...

Silverfish

3

Проблема на самом деле в том, что для некоторых из последних пунктов используется очень мало данных, поэтому в них много неопределенности. Если внимательно посмотреть на данные, вы можете увидеть, что было одно событие 7.9, а затем несколько событий 7.7. Мало что известно о землетрясениях более 8,0, поскольку они нечасты, но когда вы наблюдаете землетрясение 9,0 (землетрясение Тохоку, вызвавшее цунами), вы можете сделать свой собственный вывод. Прямая линия может быть консервативной, но когда дело доходит до ядерной безопасности, консервативная - это хорошо.

Флорис

1

@ Флорис Хороший вопрос. Было бы лучше, если бы они использовали коробочную диаграмму, которая показывала не только наблюдаемые частоты, но и доверительные интервалы для этих частот. Тогда можно было бы получить очень узкие прямоугольники слева на диаграмме и очень широкие прямоугольники справа. (Такие доверительные интервалы могут быть рассчитаны исходя из предположения, что каждая частота следует распределению Пуассона.)

user763305

3

@ user763305 - да, я уверен, что добавление доверительных интервалов покажет, что прямая линия не противоречит данным (или, другими словами, вы не можете отвергнуть нулевую гипотезу о том, что данные следуют по прямой линии).

Флорис

15

"Ах! Пэт уходит из компании. Как мы найдем замену?"

Объявление о вакансии:

Требуются: инженер-электрик. 42-летний андрогинный человек со степенями в области электротехники, математики и животноводства. Он должен быть 68 дюймов в высоту с каштановыми волосами, родинкой над левым глазом и склонен к длинным спутанным диатрибам против гусей и неправильному использованию слова «адвокат».

В математическом смысле переоснащение часто относится к созданию модели с большим количеством параметров, чем необходимо, что приводит к лучшему соответствию для конкретного набора данных, но без сбора соответствующих деталей, необходимых для соответствия другим наборам данных из интересующего класса.

В приведенном выше примере автор не может отличить релевантные от нерелевантных характеристик. Получающиеся квалификации, вероятно, будут выполнены только одним человеком, которого они уже знают, который подходит для работы (но больше не хочет этого).

Марк Боргердинг
источник

8

Хотя этот ответ интересный, он не дает представления о том, что означает переоснащение в статистическом смысле. Возможно, вы могли бы расширить свой ответ, чтобы прояснить связь между этими очень специфическими атрибутами и статистическим моделированием.

Восстановить Монику

+1 Марк. Я согласен с @ user777 только в небольшой степени. Возможно предложение принесет краткий пример домой. Но добавление слишком много уберет от простоты.

ndoogan

Я думаю, что это отличный ответ - он демонстрирует очень распространенный тип переоснащения, который, по существу, запоминает тренировочные данные, особенно частый случай, когда объем обучающих данных недостаточен для насыщения выразительной силы модели.

Кен Уильямс

14

Этот выдуманный, но я надеюсь, что он проиллюстрирует это дело.

Пример 1

$k=100$ $n=100$

set.seed(123)
k <- 100
data <- replicate(k, rnorm(100))
colnames(data) <- make.names(1:k)
data <- as.data.frame(data)

Теперь давайте подгоним к нему линейную регрессию:

fit <- lm(X1 ~ ., data=data)

И вот резюме для первых десяти предикторов:

> summary(fit)

Call:
lm(formula = X1 ~ ., data = data)

Residuals:
ALL 100 residuals are 0: no residual degrees of freedom!

Coefficients:
              Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.502e-01         NA      NA       NA
X2           3.153e-02         NA      NA       NA
X3          -6.200e-01         NA      NA       NA
X4           7.087e-01         NA      NA       NA
X5           4.392e-01         NA      NA       NA
X6           2.979e-01         NA      NA       NA
X7          -9.092e-02         NA      NA       NA
X8          -5.783e-01         NA      NA       NA
X9           5.965e-01         NA      NA       NA
X10         -8.289e-01         NA      NA       NA
...
Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared:      1, Adjusted R-squared:    NaN 
F-statistic:   NaN on 99 and 0 DF,  p-value: NA

результаты выглядят довольно странно, но давайте подготовим их.

введите описание изображения здесь

$X_1$ $X_1$

> sum(abs(data$X1-fitted(fit)))
[1] 0

Это ноль, поэтому сюжеты нам не лгали: модель отлично вписывается. И насколько это точно в классификации?

> sum(data$X1==fitted(fit))
[1] 100

$X_1$

Пример 2

Еще один пример. Давайте составим еще немного данных:

data2 <- cbind(1:10, diag(10))
colnames(data2) <- make.names(1:11)
data2 <- as.data.frame(data2)

так это выглядит так:

   X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11
1   1  1  0  0  0  0  0  0  0   0   0
2   2  0  1  0  0  0  0  0  0   0   0
3   3  0  0  1  0  0  0  0  0   0   0
4   4  0  0  0  1  0  0  0  0   0   0
5   5  0  0  0  0  1  0  0  0   0   0
6   6  0  0  0  0  0  1  0  0   0   0
7   7  0  0  0  0  0  0  1  0   0   0
8   8  0  0  0  0  0  0  0  1   0   0
9   9  0  0  0  0  0  0  0  0   1   0
10 10  0  0  0  0  0  0  0  0   0   1

и теперь давайте подгоним линейную регрессию к этому:

fit2 <- lm(X1~., data2)

поэтому мы получаем следующие оценки:

> summary(fit2)

Call:
lm(formula = X1 ~ ., data = data2)

Residuals:
ALL 10 residuals are 0: no residual degrees of freedom!

Coefficients: (1 not defined because of singularities)
            Estimate Std. Error t value Pr(>|t|)
(Intercept)       10         NA      NA       NA
X2                -9         NA      NA       NA
X3                -8         NA      NA       NA
X4                -7         NA      NA       NA
X5                -6         NA      NA       NA
X6                -5         NA      NA       NA
X7                -4         NA      NA       NA
X8                -3         NA      NA       NA
X9                -2         NA      NA       NA
X10               -1         NA      NA       NA
X11               NA         NA      NA       NA

Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared:      1, Adjusted R-squared:    NaN 
F-statistic:   NaN on 9 and 0 DF,  p-value: NA

$R^2 = 1$ $X_1$

{Икс}_{1} знак равно 10 + {Икс}_{2} \times - 9 + {Икс}_{3} \times - 8 + {Икс}_{4} \times - 7 + {Икс}_{5} \times - 6 + {Икс}_{6} \times - 5 + {Икс}_{7} \times - 4 + {Икс}_{8} \times - 3 + {Икс}_{9} \times - 2

$X_1 = 10 + X_2 \times -9 + X_3 \times -8 + X_4 \times -7 + X_5 \times -6 + X_6 \times -5 + X_7 \times -4 + X_8 \times -3 + X_9 \times -2$

$X_1 = 1$

10 + 1 \times - 9 + 0 \times - 8 + 0 \times - 7 + 0 \times - 6 + 0 \times - 5 + 0 \times - 4 + 0 \times - 3 + 0 \times - 2

$10 + 1 \times -9 + 0 \times -8 + 0 \times -7 + 0 \times -6 + 0 \times -5 + 0 \times -4 + 0 \times -3 + 0 \times -2$

Это довольно очевидно. Вы можете думать о Примере 1 как о Примере 2, но с добавленным «шумом». Если у вас достаточно больших данных и вы используете их для «предсказания» чего-либо, то иногда одна «особенность» может убедить вас в том, что у вас есть «шаблон», который хорошо описывает вашу зависимую переменную, хотя это может быть просто совпадением. В Примере 2 ничего на самом деле не предсказано, но точно так же произошло в Примере 1, только значения переменных были разными.

Примеры из реальной жизни

Примером из реальной жизни является предсказание террористических атак 11 сентября 2001 года путем наблюдения за «закономерностями» чисел, случайно выбранными компьютерными генераторами псевдослучайных чисел в рамках проекта « Глобальное сознание», или «секретными сообщениями» в «Моби Дике», которые раскрывают факты убийств известных людей. (вдохновлено аналогичными результатами в Библии ).

Заключение

Если вы посмотрите достаточно усердно, вы найдете «шаблоны» для чего угодно. Однако эти шаблоны не позволят вам узнать что-либо о вселенной и не помогут вам прийти к каким-либо общим выводам. Они будут идеально вписываться в ваши данные, но будут бесполезны, поскольку они не будут соответствовать ничему другому, кроме самих данных. Они не позволят вам делать какие-либо разумные прогнозы вне выборки, потому что они скорее подражают, чем описывают данные.

Тим
источник

5

Я предлагаю положить примеры реальной жизни на вершине этого ответа. Это та часть, которая действительно имеет отношение к вопросу - остальное - соус.

Shadowtalker

8

Распространенная проблема, которая приводит к переоснащению в реальной жизни, состоит в том, что в дополнение к терминам для правильно определенной модели мы могли бы добавить что-то постороннее: нерелевантные степени (или другие преобразования) правильных терминов, нерелевантные переменные или нерелевантные взаимодействия.

Это происходит в множественной регрессии, если вы добавляете переменную, которая не должна отображаться в правильно заданной модели, но не хотите отбрасывать ее, потому что вы боитесь вызвать смещение пропущенной переменной . Конечно, у вас нет возможности узнать, что вы ошибочно включили его, поскольку вы не можете видеть всю совокупность, только свою выборку, поэтому не можете точно знать, какова правильная спецификация. (Как указывает @Scortchi в комментариях, «правильной» спецификации модели может не существовать - в этом смысле цель моделирования - найти «достаточно хорошую» спецификацию; чтобы избежать переобучения, нужно избегать сложности модели). больше, чем можно получить из имеющихся данных.) Если вам нужен реальный пример переоснащения, это происходит каждый развы бросаете все потенциальные предикторы в регрессионную модель, если какой-либо из них на самом деле не имеет отношения к ответу после того, как влияние других будет частично разделено.

При таком типе переоснащения хорошая новость заключается в том, что включение этих нерелевантных слагаемых не приводит к смещению ваших оценок, и в очень больших выборках коэффициенты нерелевантных слагаемых должны быть близки к нулю. Но есть и плохие новости: поскольку ограниченная информация из вашей выборки теперь используется для оценки большего количества параметров, она может делать это только с меньшей точностью - поэтому стандартные ошибки в действительно релевантных терминах возрастают. Это также означает, что они, вероятно, будут дальше от истинных значений, чем оценки от правильно заданной регрессии, что, в свою очередь, означает, что если даны новые значения ваших объясняющих переменных, прогнозы из переопределенной модели будут иметь тенденцию быть менее точными, чем для правильно указанная модель.

Вот график log ВВП против логарифмического населения для 50 штатов США в 2010 году. Была выбрана случайная выборка из 10 штатов (выделена красным), и для этой выборки мы подобрали простую линейную модель и полином степени 5. Для выборки точки, у многочлена есть дополнительные степени свободы, которые позволяют ему «извиваться» ближе к наблюдаемым данным, чем прямая. Но 50 штатов в целом подчиняются почти линейным отношениям, поэтому прогнозирующая эффективность полиномиальной модели в 40 точках вне выборки очень низкая по сравнению с менее сложной моделью, особенно при экстраполяции. Полином эффективно соответствовал некоторой случайной структуре (шуму) выборки, которая не распространялась на более широкую совокупность. Это было особенно плохо при экстраполяции за пределы наблюдаемого диапазона образца.эта редакция этого ответа.)

Экстраполяция из слишком сложной модели

R $y_i = 2x_{1,i} + 5 + \epsilon_i$ $x_2$ $x_3$ $x_1$ $x_2$ $x_3$

require(MASS) #for multivariate normal simulation    
nsample <- 25   #sample to regress 
nholdout <- 1e6  #to check model predictions
Sigma <- matrix(c(1, 0.5, 0.4, 0.5, 1, 0.3, 0.4, 0.3, 1), nrow=3)
df <- as.data.frame(mvrnorm(n=(nsample+nholdout), mu=c(5,5,5), Sigma=Sigma))
colnames(df) <- c("x1", "x2", "x3")
df$y <- 5 + 2 * df$x1 + rnorm(n=nrow(df)) #y = 5 + *x1 + e

holdout.df <- df[1:nholdout,]
regress.df <- df[(nholdout+1):(nholdout+nsample),]

overfit.lm <- lm(y ~ x1*x2*x3, regress.df)
correctspec.lm <- lm(y ~ x1, regress.df)
summary(overfit.lm)
summary(correctspec.lm)

holdout.df$overfitPred <- predict.lm(overfit.lm, newdata=holdout.df)
holdout.df$correctSpecPred <- predict.lm(correctspec.lm, newdata=holdout.df)
with(holdout.df, sum((y - overfitPred)^2)) #SSE
with(holdout.df, sum((y - correctSpecPred)^2))

require(ggplot2)
errors.df <- data.frame(
    Model = rep(c("Overfitted", "Correctly specified"), each=nholdout),
    Error = with(holdout.df, c(y - overfitPred, y - correctSpecPred)))
ggplot(errors.df, aes(x=Error, color=Model)) + geom_density(size=1) +
    theme(legend.position="bottom")

Вот мои результаты за один прогон, но лучше всего запустить симуляцию несколько раз, чтобы увидеть эффект различных сгенерированных сэмплов.

>     summary(overfit.lm)

Call:
lm(formula = y ~ x1 * x2 * x3, data = regress.df)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.22294 -0.63142 -0.09491  0.51983  2.24193 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept) 18.85992   65.00775   0.290    0.775
x1          -2.40912   11.90433  -0.202    0.842
x2          -2.13777   12.48892  -0.171    0.866
x3          -1.13941   12.94670  -0.088    0.931
x1:x2        0.78280    2.25867   0.347    0.733
x1:x3        0.53616    2.30834   0.232    0.819
x2:x3        0.08019    2.49028   0.032    0.975
x1:x2:x3    -0.08584    0.43891  -0.196    0.847

Residual standard error: 1.101 on 17 degrees of freedom
Multiple R-squared: 0.8297,     Adjusted R-squared: 0.7596 
F-statistic: 11.84 on 7 and 17 DF,  p-value: 1.942e-05

$x_1$ $R^2$

>     summary(correctspec.lm)

Call:
lm(formula = y ~ x1, data = regress.df)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.4951 -0.4112 -0.2000  0.7876  2.1706 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   4.7844     1.1272   4.244 0.000306 ***
x1            1.9974     0.2108   9.476 2.09e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.036 on 23 degrees of freedom
Multiple R-squared: 0.7961,     Adjusted R-squared: 0.7872 
F-statistic:  89.8 on 1 and 23 DF,  p-value: 2.089e-09

$R^2$ $R^2$

>     with(holdout.df, sum((y - overfitPred)^2)) #SSE
[1] 1271557
>     with(holdout.df, sum((y - correctSpecPred)^2))
[1] 1052217

$R^2$ $\hat{y}$ $y$ (и имел больше степеней свободы для этого, чем правильно указанная модель, что могло привести к «лучшей» подгонке). Посмотрите на сумму квадратов ошибок для прогнозов в наборе несоответствий, который мы не использовали для оценки коэффициентов регрессии, и мы увидим, насколько хуже работает переобработанная модель. На самом деле правильно заданная модель - это та, которая делает лучшие прогнозы. Мы не должны основывать нашу оценку прогнозирующей эффективности на результатах набора данных, который мы использовали для оценки моделей. Вот график плотности ошибок с правильной спецификацией модели, приводящей к большему количеству ошибок, близких к 0:

Ошибки прогнозирования на удерживающей системе

Симуляция четко представляет многие релевантные ситуации из реальной жизни (представьте себе любой реальный ответ, который зависит от одного предиктора, и представьте, что в модель будут включены посторонние «предикторы»), но вы получите преимущество, которое вы можете играть с процессом генерации данных. размеры выборки, характер переоборудованной модели и т. д. Это лучший способ проверить последствия переоснащения, поскольку для наблюдаемых данных у вас, как правило, нет доступа к DGP, и это все еще «реальные» данные в том смысле, что вы можете их исследовать и использовать. Вот несколько полезных идей, с которыми вам стоит поэкспериментировать:

Запустите симуляцию несколько раз и посмотрите, как отличаются результаты. Вы найдете больше изменчивости, используя небольшие размеры выборки, чем большие.
n <- 1e6 $x_1$
Попробуйте уменьшить корреляцию между переменными предиктора, играя с недиагональными элементами матрицы дисперсии-ковариации Sigma. Просто помните, чтобы оно оставалось положительным полуопределенным (включая симметричность). Вы должны найти, что если вы уменьшите мультиколлинеарность, то переоснащенная модель работает не так плохо. Но имейте в виду, что коррелированные предикторы действительно происходят в реальной жизни.
Попробуйте поэкспериментировать со спецификацией переоборудованной модели. Что если вы включите полиномиальные термины?
$y$ df$y <- 5 + 2*df$x1 + rnorm(n=nrow(df)) $y$ $x_i$
$y$ $x_2$ $x3$ $x_1$ df$y <- 5 + 2 * df$x1 + 0.1*df$x2 + 0.1*df$x3 + rnorm(n=nrow(df)) $x_2$ $x_3$ $x$ $x_1$ $x_2$ $x_3$ nsample <- 25полная модель по-прежнему переобучена, несмотря на лучшее представление основной популяции, а при повторном моделировании ее прогнозирующая эффективность в наборе несогласных по-прежнему неизменно хуже. При таких ограниченных данных более важно получить хорошую оценку для коэффициента $x_1$ $x_2$ $x_3$ nsample <- 1e6, он может довольно хорошо оценить более слабые эффекты, и моделирование показывает, что сложная модель обладает прогностической силой, превосходящей простую. Это показывает, как «переоснащение» является проблемой как сложности модели, так и доступных данных.

Silverfish
источник

1

(-1) Довольно важно понимать, что чрезмерная подгонка не является исключительно результатом включения «нерелевантных» или «посторонних» терминов, которые не появляются в правильно заданной модели. Действительно, можно утверждать, что во многих приложениях идея простой истинной модели не имеет особого смысла, и задача прогнозного моделирования состоит в том, чтобы построить модель, сложность которой пропорциональна количеству доступных данных.

Scortchi - Восстановить Монику

1

Я отправлю вашу фотографию своему конгрессмену в поддержку иммиграционной реформы

прототип

1

(+1) Я думаю, что исправления улучшают объяснение перенастройки, не жертвуя понятностью.

Scortchi - Восстановить Монику

1

@Aksakal Я попытался ответить на вопрос: «Мне нужна помощь, чтобы найти реальный пример, который относится к переоснащению». Неясно, попросили ли ОП найти опубликованную статью, которая подходила бы, или - более естественное значение «придумать» - построить собственный пример. Если переоснащение - это плохо, то почему в реальной жизни кто-то переодевается? Мой ответ, что аналитик может предпочесть ошибку для модели с чрезмерным уточнением по сравнению с недоопределенной (из-за боязни OVB или подозрения, что отношения криволинейные) является таким примером. График / симуляция просто показывают последствия: плохое прогнозирование вне выборки

Silverfish

1

@Aksakal Мне не понятно, что полиномиальная модель "нереальна" для графа. Доминирующая особенность линейна, но знаем ли мы, что она полностью линейна? Если бы у нас был доступ к гипотетическому миллиону политических единиц, и мне пришлось бы в любом случае поставить свою жизнь на карту, я бы предпочел рискнуть, если бы мы обнаружили небольшие криволинейные отношения, чем то, что все полиномиальные термины были бы незначительными. Несмотря на это, в соответствии с низким n, только линейная модель позволяет избежать переоснащения. (Мы не можем решить эту проблему из-за трудности выборки из теоретически бесконечной совокупности «возможных штатов США»; это преимущество смоделированных данных!)

Silverfish

4

Когда я пытался понять это сам, я начал думать в терминах аналогий с описанием реальных объектов, поэтому я предполагаю, что это настолько «реальный мир», насколько вы можете себе представить, если вы хотите понять общую идею:

Скажем, вы хотите описать кому-то концепцию стула, чтобы они получили концептуальную модель, которая позволяет им предсказать, является ли новый объект, который он обнаружит, стулом. Вы идете в Ikea и получаете образец стульев, и начинаете описывать их, используя две переменные: это объект с четырьмя ножками, где вы можете сидеть. Ну, это может также описать стул или кровать или много других вещей. Ваша модель не подходит, как если бы вы пытались смоделировать сложный дистрибутив со слишком малым количеством переменных - многие вещи, не связанные с председателем, будут определены как стулья. Итак, давайте увеличим количество переменных, добавим, что объект должен иметь, например, спину. Теперь у вас есть довольно приемлемая модель, которая описывает ваш набор стульев, но достаточно общая, чтобы можно было идентифицировать новый объект как один. Ваша модель описывает данные и может делать прогнозы. Однако, скажем, у вас есть набор, где все стулья черного или белого цвета и сделаны из дерева. Вы решаете включить эти переменные в свою модель, и вдруг он не идентифицирует пластиковый желтый стул как стул. Итак, вы переоснастили свою модель, вы включили функции своего набора данных, как если бы они были характеристиками стульев в целом (если вы предпочитаете, вы определили «шум» как «сигнал», интерпретируя случайное отклонение от вашей выборки как особенность всего "реального мира стульев"). Таким образом, вы либо увеличиваете свою выборку и надеетесь включить новый материал и цвета, либо уменьшите число переменных в своих моделях. не идентифицируйте пластиковый желтый стул как стул. Итак, вы переоснастили свою модель, вы включили функции своего набора данных, как если бы они были характеристиками стульев в целом (если вы предпочитаете, вы определили «шум» как «сигнал», интерпретируя случайное отклонение от вашей выборки как особенность всего "реального мира стульев"). Таким образом, вы либо увеличиваете свою выборку и надеетесь включить новый материал и цвета, либо уменьшите число переменных в своих моделях. не идентифицируйте пластиковый желтый стул как стул. Итак, вы переоснастили свою модель, вы включили функции своего набора данных, как если бы они были характеристиками стульев в целом (если вы предпочитаете, вы определили «шум» как «сигнал», интерпретируя случайное отклонение от вашей выборки как особенность всего "реального мира стульев"). Таким образом, вы либо увеличиваете свою выборку и надеетесь включить новый материал и цвета, либо уменьшите число переменных в своих моделях.

Это может быть упрощенная аналогия и пробой при дальнейшем изучении, но я думаю, что это работает как общая концептуализация ... Дайте мне знать, если какая-то часть нуждается в разъяснении.

joaofm
источник

Не могли бы вы объяснить более подробно идею «шум» и «сигнал» и тот факт, что переоснащенная модель описывает шум, потому что у меня возникли проблемы с пониманием этого.

Quirik

4

В прогнозном моделировании идея состоит в том, чтобы использовать имеющиеся данные для выявления существующих тенденций, которые можно обобщить для будущих данных. Включая переменные в вашу модель, которые оказывают незначительное, незначительное влияние, вы отказываетесь от этой идеи. То, что вы делаете, рассматривает конкретные тренды в вашей конкретной выборке, которые присутствуют только из-за случайного шума, а не из-за истинного основного тренда. Другими словами, модель со слишком большим количеством переменных соответствует шуму, а не обнаруживает сигнал.

Вот преувеличенная иллюстрация того, о чем я говорю. Здесь точки - данные наблюдений, а линия - наша модель. Посмотрите на это идеально подходит - какая замечательная модель! Но мы действительно обнаружили тенденцию или мы просто приспосабливаемся к шуму? Скорее всего последний.

введите описание изображения здесь

TrynnaDoStat
источник

4

Форма переоснащения довольно распространена в спорте, а именно для определения моделей, объясняющих прошлые результаты факторами, которые не имеют или, в лучшем случае, имеют неопределенную силу для прогнозирования будущих результатов. Общей особенностью этих «шаблонов» является то, что они часто основаны на очень немногих случаях, так что чистый шанс, вероятно, является наиболее правдоподобным объяснением шаблона.

Примеры включают в себя такие вещи, как ("цитаты" составлены мной, но часто выглядят похожими)

Команда А выиграла все X игр, так как тренер начал носить свою волшебную красную куртку.

Аналогичный:

Мы не будем бриться во время плей-офф, потому что это помогло нам выиграть прошлые Х-игры.

Менее суеверный, но также и форма переоснащения:

Боруссия Дортмунд никогда не проигрывал домашнюю игру Лиги чемпионов испанскому сопернику, когда он проиграл предыдущую выездную игру Бундеслиги более чем на два гола, забив хотя бы один раз.

Аналогичный:

Роджер Федерер выиграл все свои выступления в Кубке Дэвиса с европейскими соперниками, когда он, по крайней мере, достиг полуфинала на Открытом чемпионате Австралии этого года.

Первые два - довольно очевидная ерунда (по крайней мере, для меня). Последние два примера вполне могут быть верны в выборке (то есть в прошлом), но я был бы очень рад сделать ставку против оппонента, который позволил бы этой «информации» существенно повлиять на его шансы на победу над «Дортмундом» в Мадриде, если они проиграли 4: 1 в «Шальке» в предыдущую субботу или Федерер обыграл Джоковича, даже если он выиграл Открытый чемпионат Австралии в этом году.

Кристоф Ханк
источник

3

Вот пример «реального мира» не в том смысле, что кто-то случайно натолкнулся на него в исследованиях, а в том смысле, что он использует повседневные понятия без многих статистических терминов. Может быть, этот способ сказать, что это будет более полезным для некоторых людей, чья подготовка в других областях.

Представьте, что у вас есть база данных с данными о пациентах с редким заболеванием. Вы являетесь аспирантом и хотите узнать, сможете ли вы распознать факторы риска для этого заболевания. В этой больнице было 8 случаев заболевания, и вы записали 100 случайных сведений о них: возраст, раса, порядок рождения, была ли у них корь в детстве, что угодно. Вы также записали данные для 8 пациентов без этого заболевания.

Вы решаете использовать следующую эвристику для факторов риска: если фактор принимает определенное значение более чем у одного из ваших больных пациентов, но в 0 из ваших контролей, вы будете считать его фактором риска. (В реальной жизни вы бы использовали лучший метод, но я хочу, чтобы он был простым). Вы обнаружите, что 6 из ваших пациентов являются вегетарианцами (но ни один из контролей не является вегетарианцем), у 3 есть шведские предки, и у двух из них есть заикание с нарушением речи. Из других 97 факторов нет ничего, что встречается у более чем одного пациента, но отсутствует среди контрольных.

Спустя годы кто-то еще заинтересовался этой болезнью сирот и повторил ваши исследования. Поскольку он работает в более крупной больнице, которая сотрудничает в области обмена данными с другими больницами, он может использовать данные о 106 случаях, в отличие от ваших 8 случаев. И он обнаруживает, что распространенность заикания одинакова в группе пациентов и контрольной группе; заикание не является фактором риска.

Здесь произошло то, что в вашей небольшой группе было 25% заиканий по случайному случаю. Ваша эвристика не имела возможности узнать, имеет ли это медицинское значение или нет. Вы дали ему критерии, чтобы решить, когда вы считаете, что шаблон данных достаточно интересен для включения в модель, и в соответствии с этими критериями заикание было достаточно интересным.

Ваша модель была переоснащена, потому что она по ошибке включала параметр, который не очень актуален в реальном мире. Он подходит для вашей выборки - 8 пациентов + 8 контролей - очень хорошо, но не соответствует данным реального мира. Когда модель описывает ваш образец лучше, чем реальность, это называется переобученным.

Если бы вы выбрали порог 3 из 8 пациентов, имеющих особенность, этого бы не случилось, но у вас был бы более высокий шанс пропустить что-то действительно интересное. Это особенно сложный компромисс, особенно в медицине, где многие заболевания возникают только у небольшой части людей, проявляющих фактор риска. И есть способы избежать этого (в основном, сравните со вторым образцом и посмотрите, останется ли объяснительная сила такой же или упадет), но это тема для другого вопроса.

rumtscho
источник

Очень напоминает xkcd.com/882

Флорис

3

Вот реальный пример переоснащения, которое я помог совершить, а затем попытался (безуспешно) предотвратить:

У меня было несколько тысяч независимых, двумерных временных рядов, каждый из которых содержал не более 50 точек данных, и проект моделирования включал подгонку векторной авторегрессии (VAR) к каждому. Не было предпринято никаких попыток упорядочить наблюдения, оценить компоненты дисперсии или что-то в этом роде. Временные точки измерялись в течение одного года, поэтому данные подвергались всевозможным сезонным и циклическим воздействиям, которые появлялись только один раз в каждом временном ряду.

Одно подмножество данных показало невероятно высокий уровень причинности Грейнджера по сравнению с остальными данными. Выборочные проверки показали , что положительные всплески происходили один или два отстает друг от друга в этом подмножестве, но это было ясно из контекста , что оба шипы были вызваны непосредственно от внешнего источника , и что один шип был не вызывал другой. Прогнозы вне выборки, использующие эти модели, вероятно, были бы весьма неправильными, потому что модели были переоснащены: вместо того, чтобы «сгладить» всплески путем усреднения их по остальным данным, было достаточно мало наблюдений, которые фактически приводили всплески оценки.

В целом, я не думаю, что проект пошел плохо, но я не думаю, что он дал результаты, которые были настолько полезными, насколько они могли бы быть. Одной из причин этого является то, что процедуре с множеством независимых VAR, даже с одним или двумя лагами, было трудно различать данные и шум, и поэтому она подходила для последнего за счет предоставления информации о бывший.

shadowtalker
источник

1

Многие умные люди в этой теме --- гораздо больше разбираются в статистике, чем я. Но я все еще не вижу легкого для понимания примера с мирянами. Президентский пример не совсем отвечает требованиям типичного переоснащения, потому что, хотя оно технически переоснащается в каждой из своих диких претензий, как правило, модель переоснащения переопределяет - заданный шум, а не только один его элемент.

Мне очень нравится диаграмма в объяснении компромисса смещения в Википедии: http://en.wikipedia.org/wiki/Bias%E2%80%93variance_tradeoff

(Самый нижний график - пример переоснащения).

Мне трудно придумать пример из реального мира, который не звучит как полный тупик. Идея состоит в том, что данные частично вызваны измеримыми, понятными переменными - частично случайным шумом. Попытка смоделировать этот шум как образец дает вам неточность.

Классическим примером является моделирование на основе SOLELY на R ^ 2 в MS Excel (вы пытаетесь подогнать уравнение / модель буквально как можно ближе к данным, используя полиномы, независимо от того, насколько они бессмысленны).

Скажем, вы пытаетесь смоделировать продажи мороженого в зависимости от температуры. У вас есть данные «реального мира». Вы наносите данные на график и пытаетесь максимизировать R ^ 2. Используя реальные данные, вы найдете, что уравнение наиболее близкого соответствия не является линейным или квадратичным (что имело бы логический смысл). Как почти во всех уравнениях, чем больше бессмысленных полиномиальных членов вы добавляете (x ^ 6 -2x ^ 5 + 3x ^ 4 + 30x ^ 3-43.2x ^ 2-29x) - тем ближе они соответствуют данным. Так как это разумно соотносит температуру с продажами мороженого? Как бы вы объяснили этот нелепый многочлен? Правда в том, что это не настоящая модель. Вы превысили данные.

Вы берете неучтенный шум - который мог быть вызван рекламными акциями или какой-то другой переменной или «шумом», как бабочка, взмахивающая крыльями в космосе (что-то никогда не предсказуемое), - и пытались смоделировать его на основе температуры. Теперь обычно, если ваш шум / ошибка не усредняется до нуля или автоматически коррелируется и т. Д., Это означает, что там больше переменных - и тогда в конечном итоге вы получите вообще случайно распределенный шум, но все же, это лучшее, что я могу объясни это.

Джон Бабсон
источник

2

Более поздняя «модель» в Президентском комического ли уместить данный шум.

Бен Фойгт

На мой взгляд, комикс не похож на большинство сценариев переобучения, хотя смешные правила точно предсказывают всех прошлых президентов. Большинство прогнозов не предсказывают дихотомическую переменную. Также он с юмором упоминает само правило, которое будет нарушено на следующих выборах - другими словами, модель обмундирования гарантированно неверна все время, что делает ее идеальным предсказателем будущего. Большинство моделей переобучения не основаны на 1 ошибочной переменной, которая может быть проверена на постороннюю - обычно она основана на слишком большом количестве переменных в модели, которые случайно добавлены для уменьшения R ^ 2.

Джон Бабсон

0

Большинство методов оптимизации имеют некоторые коэффициенты выдумки, такие как гиперпараметры. Реальный пример:

$N_{min} = 5,\ \ f_{inc} = 1.1,\ \ f_{dec} = 0.5,\ \ \alpha_{start} = 0.1, \ \ f_{\alpha} = 0.99.$

Это слишком подходит или просто подходит к определенному набору проблем?

Денис
источник

0

Подготовка к экзамену путем запоминания ответов на прошлогодний экзамен.

Ingolifs
источник

0

Моя любимая «формула 3964», обнаруженная перед чемпионатом мира по футболу в 1998 году:

Бразилия выиграла чемпионаты в 1970 и 1994 годах. Суммируйте эти 2 числа, и вы получите 3964; Германия выиграла в 1974 и 1990 годах, снова составив 3964; то же самое с Аргентиной, победившей в 1978 и 1986 годах (1978 + 1986 = 3964).

Это очень удивительный факт, но каждый может видеть, что не стоит основывать какие-либо будущие прогнозы на этом правиле. И действительно, правило гласит, что победителем чемпионата мира 1998 года должна была стать Англия с 1966 года + 1998 год = 3964, а Англия победила в 1966 году. Этого не произошло, и победителем стала Франция.

SDD
источник

-2

Немного интуитивно, но, возможно, это поможет. Допустим, вы хотите выучить новый язык. Как ты учишься? вместо изучения правил в курсе вы используете примеры. В частности, ТВ-шоу. Итак, вам нравятся криминальные шоу, и вы смотрите несколько серий какого-нибудь полицейского шоу. Затем вы берете другое криминальное шоу и смотрите сериал из этого. К третьему шоу вы видите - вы знаете почти все, без проблем. Вам не нужны английские субтитры.

Но затем вы попробуете свой недавно выученный язык на улице во время вашего следующего визита, и вы поймете, что не можете говорить ни о чем, кроме как сказать: «Офицер! Этот человек взял мою сумку и застрелил ту леди!». Хотя ваша «ошибка обучения» была равна нулю, ваша «ошибка теста» высока из-за «переобучения» языка, изучения только ограниченного набора слов и предположения, что этого достаточно.

Yoki
источник

8

Это не переобучение, это просто изучение подмножества языка. Переутомление может произойти, если после просмотра криминальных выучений вы выучите целый, но странный язык, который совпадает с английским по всем темам, связанным с преступностью, но при этом вы говорите о полной бессмысленности (или, возможно, китайском), когда говорите о какой-либо другой теме.

амеба

Какой реальный пример «переоснащения»?

Ответы: