Если вы подгоняете нелинейную функцию к набору точек (при условии, что для каждой абсциссы есть только одна ордината), результатом может быть:
- очень сложная функция с небольшими остатками
- очень простая функция с большими остатками
Перекрестная проверка обычно используется, чтобы найти «лучший» компромисс между этими двумя крайностями. Но что значит «лучший»? Это "скорее всего"? Как бы вы начали доказывать, что является наиболее вероятным решением?
Мой внутренний голос говорит мне, что CV находит какое-то минимальное энергетическое решение. Это заставляет меня думать об энтропии, которая, как я смутно знаю, встречается как в статистике, так и в физике.
Мне кажется, что «наилучшее» соответствие генерируется путем минимизации суммы функций сложности и ошибки, т.е.
minimising m where m = c(Complexity) + e(Error)
Есть ли в этом смысл? Какими будут функции с и е?
Пожалуйста, вы можете объяснить, используя не математический язык, потому что я не буду понимать много математики.
Ответы:
Я думаю, что это отличный вопрос. Я собираюсь перефразировать это, просто чтобы убедиться, что я правильно понял:
Я думаю, что ответ (если таковой имеется) выведет вас за рамки простой перекрестной проверки. Мне нравится, как этот вопрос (и тема в целом) хорошо соотносится с бритвой Оккама и общей концепцией скупости, которая является фундаментальной для науки. Я ни в коем случае не эксперт в этой области, но нахожу этот вопрос чрезвычайно интересным. Лучший текст, который я знаю по таким вопросам, - « Универсальный искусственный интеллект » Маркуса Хаттера (хотя не задавайте мне никаких вопросов по этому поводу, я не читал большую его часть). Я ходил на разговор Хаттера и пару лет назад и был очень впечатлен.
Вы правы, думая , что есть как минимум энтропии аргумент где - то там (используется для сложности штрафной функции каким - либо образом). Хаттер выступает за использование колмогоровской сложности вместо энтропии. Кроме того, определение «лучшего» Хаттера (насколько я помню) является (неформально) моделью, которая лучше всего предсказывает будущее (то есть лучше всего предсказывает данные, которые будут наблюдаться в будущем). Я не могу вспомнить, как он формализует это понятие.с
источник
Я предложу краткий интуитивный ответ (на довольно абстрактном уровне), пока кто-то другой не предложит лучший ответ:
Во-первых, обратите внимание, что сложные функции / модели достигают лучшего соответствия (т. Е. Имеют меньшие невязки), поскольку они используют некоторые локальные особенности (представьте себе шум) набора данных, которые отсутствуют в глобальном масштабе (представьте систематические шаблоны).
Во-вторых, при выполнении перекрестной проверки мы разделяем данные на два набора: обучающий набор и набор проверки.
Таким образом, когда мы выполняем перекрестную проверку, сложная модель может не очень хорошо предсказывать, потому что по определению сложная модель будет использовать локальные особенности обучающего набора. Однако локальные характеристики обучающего набора могут сильно отличаться по сравнению с локальными характеристиками проверочного набора, что приводит к плохой прогностической эффективности. Поэтому у нас есть тенденция выбирать модель, которая учитывает глобальные особенности обучающих и проверочных наборов данных.
Таким образом, перекрестная проверка защищает от переоснащения, выбирая модель, которая фиксирует глобальные шаблоны набора данных, и избегая моделей, использующих некоторые локальные особенности набора данных.
источник
В общем виде машинного обучения ответ довольно прост: мы хотим построить модель, которая будет иметь самую высокую точность при прогнозировании новых данных (незаметно во время обучения). Поскольку мы не можем напрямую протестировать это (у нас нет данных из будущего), мы проводим симуляцию Монте-Карло такого теста - и это в основном идея под перекрестной проверкой.
Могут возникнуть некоторые вопросы о том, что такое точность (например, бизнес-клиент может заявить, что перерегулирование стоит 5 € за единицу и недооценка 0,01 € за единицу, поэтому лучше построить менее точную, но более низкую модель), но в целом это это довольно интуитивный процент истинных ответов в классификации и широко используется объясненная дисперсия регрессии.
источник
У многих людей есть отличные ответы, вот мои $ 0,02.
Есть два способа взглянуть на «лучшую модель» или «выбор модели», говоря статистически:
1 Объяснение настолько простое, насколько это возможно, но не проще (Attrib. Einstein)
2 Прогноз - это интерес, похожий на инженерные разработки.
Распространенная (неправильная) концепция:
Выбор модели эквивалентен выбору лучшей модели
Для объяснения мы должны быть готовы к тому, что существует несколько (примерно) одинаково хороших объяснительных моделей. Простота помогает как в передаче концепций, воплощенных в модели, так и в том, что психологи называют обобщением, способность «работать» в сценариях, сильно отличающихся от тех, в которых изучалась модель. Так что есть премиум на несколько моделей.
Для прогноза: (Доктор Рипли) хорошая аналогия - это выбор между мнениями экспертов: если у вас есть доступ к большой группе экспертов, как бы вы использовали их мнения?
Перекрестная проверка заботится о аспекте прогнозирования. Для получения подробной информации о CV, пожалуйста, обратитесь к этой презентации доктора BD Ripley. Доктор Брайан Д. Ripley.
Цитата: Обратите внимание, что все в этом ответе из презентации, приведенной выше. Я большой поклонник этой презентации, и мне это нравится. Другие мнения могут отличаться. Название презентации: «Выбор среди больших классов моделей» и было дано на симпозиуме в честь 80-летия Джона Нелдера, Имперский колледж, 29/30 марта 2004 г., доктором Брайаном Д. Рипли.
источник
Хорошая дискуссия здесь, но я думаю о перекрестной проверке иначе, чем до сих пор ответы (я думаю, mbq и я на одной странице). Итак, я положу свои два цента, рискуя испачкать воду ...
Перекрестная проверка - это статистический метод оценки изменчивости и систематической ошибки, обусловленной ошибкой выборки, в способности модели подбирать и прогнозировать данные. Таким образом, «наилучшей» будет модель, которая обеспечивает наименьшую ошибку обобщения, которая будет в единицах изменчивости и смещения. Такие методы, как Байесовское и Bootstrap Model Averaging, могут использоваться для обновления модели алгоритмическим способом на основе результатов перекрестной проверки.
Этот FAQ предоставляет хорошую информацию для большего контекста того, что сообщает мое мнение.
источник
Функция ошибки - это ошибка вашей модели (функции) в данных обучения. Сложность - это некоторая норма (например, квадрат l2 нормы) функции, которую вы пытаетесь выучить. Минимизация термина сложности существенно способствует плавным функциям, которые хорошо работают не только с данными обучения, но и с данными испытаний. Если вы представляете свою функцию набором коэффициентов (скажем, если вы делаете линейную регрессию), штрафование сложности по квадрату нормы приведет к малым значениям коэффициентов в вашей функции (штрафование других норм приведет к различным понятиям управления сложностью).
источник
С точки зрения оптимизации, проблема (с( р , д)≥1,λ>0 ),
is equivalent to
Which simply incorporates unto the objective function the prior information that||β||q≤λ . If this prior turns out to be true, then it can be shown (q=1,2 ) that incorporating it unto the objective function minimizes the risk associated with β^ (i.e. very unformaly, improves the accuracy of β^ )
As to your subquestion (whye()=||y−m(x,β)||p ) this is because for p=1 (p=2 ) this measure of distance between the model and the observations has (easely) derivable assymptotical properties (strong convergence to meaningfull population couterparts of m() ).
источник