Я студент-физик, изучающий машинное обучение / науку о данных, поэтому я не хочу, чтобы этот вопрос вызвал какие-либо конфликты :) Однако большая часть любой программы по физике для студентов-физиков - это проведение лабораторных работ / экспериментов, что означает много данных. обработка и статистический анализ. Тем не менее, я замечаю резкую разницу между тем, как физики работают с данными, и тем, как мои учебники по данным / статистическому обучению работают с данными.
Основное различие заключается в том , что при попытке выполнить регрессию к данным , полученных от физических экспериментов, алгоритмы регрессии применяются к ПОЛНОМУ набору данных, нет абсолютно никакого разделения на обучение и испытательные комплекты. В мире физики R ^ 2 или псевдо-R ^ 2 некоторого типа вычисляется для модели на основе всего набора данных. В мире статистики данные почти всегда делятся на 80-20, 70-30 и т. Д., А затем модель сравнивается с тестовым набором данных.
Существуют также некоторые крупные физические эксперименты (ATLAS, BICEP2 и т. Д.), Которые никогда не проводят такое расщепление данных, поэтому мне интересно, почему существует такая стойкая разница между тем, как физики / экспериментаторы делают статистику, и тем, как ученые данных делать статистику.
Ответы:
Не все статистические процедуры разделяются на данные обучения / тестирования, также называемые «перекрестной проверкой» (хотя вся процедура включает в себя немного больше).
Скорее, это метод, который специально используется для оценки ошибки вне выборки ; т.е. насколько хорошо ваша модель будет предсказывать новые результаты, используя новый набор данных? Это становится очень важной проблемой, когда у вас есть, например, очень большое количество предикторов относительно количества выборок в вашем наборе данных. В таких случаях действительно легко построить модель с большой ошибкой выборки, но ужасной ошибкой выборки (называемой «переборкой»). В случаях, когда у вас есть как большое количество предикторов, так и большое количество выборок, перекрестная проверка является необходимым инструментом, помогающим оценить, насколько хорошо модель будет вести себя при прогнозировании на новых данных. Это также важный инструмент при выборе между конкурирующими прогностическими моделями.
С другой стороны, перекрестная проверка почти всегда используется только при попытке построить прогностическую модель. В целом, это не очень полезно для моделей, когда вы пытаетесь оценить эффект некоторого лечения. Например, если вы сравниваете распределение прочности на растяжение между материалами A и B («обработка» является типом материала), перекрестная проверка не потребуется; в то время как мы действительно надеемся, что наша оценка эффекта лечения обобщается вне выборки, для большинства задач классическая статистическая теория может ответить на это (то есть «стандартные ошибки» оценок) более точно, чем перекрестная проверка. К сожалению, классическая статистическая методология 1для стандартных ошибок не выдерживает переоснащения. В этом случае перекрестная проверка часто дает гораздо лучшие результаты.
С другой стороны, если вы пытаетесь предсказать, когда материал сломается, основываясь на 10 000 измеренных переменных, которые вы добавляете в какую-либо модель машинного обучения, основанную на 100 000 наблюдений, у вас будет много трудностей при создании отличной модели без перекрестной проверки!
Я предполагаю, что во многих экспериментах по физике вы обычно интересуетесь оценкой эффектов. В этих случаях очень мало необходимости в перекрестной проверке.
1 Можно утверждать, что байесовские методы с информативными априорами являются классической статистической методологией, которая учитывает переоснащение. Но это другое обсуждение.
Примечание: хотя перекрестная проверка впервые появилась в статистической литературе и определенно используется людьми, называющими себя статистиками, она стала основным необходимым инструментом в сообществе машинного обучения. Многие модели статистики будут хорошо работать без перекрестной проверки, но почти все модели, которые считаются «прогностическими моделями машинного обучения», нуждаются в перекрестной проверке, поскольку они часто требуют выбора параметров настройки, что практически невозможно без перекрестной проверки. -Проверка.
источник
glment
«Scv.glmnet
для всей процедуры в хорошей компактной функции.Будучи (аналитическим) химиком , я сталкиваюсь с обоими подходами: аналитическим расчетом показателей качества [в основном для одномерной регрессии], а также прямым измерением прогнозных показателей качества.
Разделение поезда / теста для меня - это «младший брат» эксперимента по оценке для оценки качества прогноза.
Длинный ответ:
Типичные эксперименты, которые мы проводим, например, в физической химии студентов, используют одномерную регрессию. Интересующим свойством часто являются параметры модели, например постоянная времени при измерении кинетики реакции, но иногда и прогнозы (например, одномерная линейная калибровка для прогнозирования / измерения некоторого интересующего значения).
Эти ситуации очень безобидны с точки зрения того, чтобы не перегружать: после того, как все параметры оценены, обычно остается удобное количество степеней свободы, и они используются для обучения (как в образовании) студентов с классическим доверием или вычислением интервала предсказания и классической ошибкой распространение - они были разработаны для этих ситуаций. И даже если ситуация не совсем похожа на учебник (например, у меня есть структура в моих данных, например, в кинетике, я бы ожидал, что данные лучше описываются дисперсией между прогонами реакции + дисперсия между измерениями в прогоне, чем простой подход, основанный только на одной дисперсии), у меня обычно может быть достаточно прогонов эксперимента, чтобы получить полезные результаты.
Тем не менее, в моей профессиональной жизни, я имею дело с спектроскопические наборы данных ( как правило , 100s в 1000е из случайных величин ) и к тому же с весьма ограниченным набором независимых случаев (образцы) . Часто , поэтому мы используем регуляризацию, из которой не всегда легко сказать, сколько степеней свободы мы используем, и, кроме того, мы стараемся хотя бы несколько компенсировать малое , используя (большие) числа почти повторяющихся измерений. - который оставляет нас с неизвестным эффективным . Не зная илип N п < р N N N dе Классические подходы не работают. Но поскольку я в основном делаю прогнозы, у меня всегда есть очень прямая возможность измерить прогнозирующую способность моей модели: я делаю прогнозы и сравниваю их с эталонными значениями.
Этот подход на самом деле очень мощный (хотя и дорогостоящий из-за увеличения экспериментальных усилий), поскольку он позволяет мне исследовать прогнозирующее качество также для условий, которые не были охвачены данными обучения / калибровки. Например, я могу измерить, как качество прогнозирования ухудшается с помощью экстраполяции (экстраполяция также включает, например, измерения, сделанные, скажем, через месяц после получения обучающих данных), я могу исследовать устойчивость к мешающим факторам, которые, как я ожидаю, будут важны, и т. Д. Другими словами мы можем изучать поведение нашей модели так же, как мы изучаем поведение любой другой системы: мы исследуем определенные точки или возмущаем ее и смотрим на изменение ответа системы и т. д.
Я бы сказал, что чем важнее качество прогнозирования (и чем выше риск переоснащения), тем больше мы склонны отдавать предпочтение прямым измерениям качества прогнозирования, а не аналитически полученным числам. (Конечно, мы могли бы включить всех этих противников и в план тренировочного эксперимента). Некоторые области, такие как медицинская диагностика, требуют проведения надлежащих валидационных исследований до того, как модель будет «выпущена» на реальных пациентах.
Разделение по поездам / тестам (независимо от того, продлится ли оно *, или перекрестная проверка, или не загружен, или ...) облегчает этот шаг. Мы сохраняем дополнительный эксперимент и не экстраполируем (мы только обобщаем для прогнозирования неизвестных независимых случаев того же самого распределения обучающих данных). Я бы назвал это проверкой, а не проверкой (хотя проверка здесь глубоко в терминологии). Это часто прагматический путь, если не предъявляются слишком высокие требования к точности показателей качества (их не обязательно нужно знать очень точно в сценарии проверки концепции).
* не путайте одно случайное разбиение на обучающее и тестируемое с правильно разработанным исследованием для измерения качества прогнозирования.
источник