Контекст:
Из вопроса об обмене стеками по математике (могу ли я построить программу) кто-то имеет набор точек и хочет подогнать к нему кривую, линейную, экспоненциальную или логарифмическую. Обычный метод состоит в том, чтобы начать с выбора одного из них (который определяет модель), а затем выполнить статистические вычисления.
Но что действительно нужно, так это найти «лучшую» кривую из линейной, экспоненциальной или логарифмической.
Якобы, можно попробовать все три и выбрать наиболее подходящую кривую из трех в соответствии с наилучшим коэффициентом корреляции.
Но почему-то я чувствую, что это не совсем кошерно. Общепринятый метод - сначала выбрать модель, одну из этих трех (или какую-либо другую функцию связи), а затем по данным рассчитать коэффициенты. И постфактум сбор лучших - это сбор вишни. Но для меня, независимо от того, определяете ли вы функцию или коэффициенты по данным, это все равно, ваша процедура обнаруживает лучшее ... (скажем, что эта функция - еще один коэффициент, который можно обнаружить).
Вопросов:
- Уместно ли выбирать модель наилучшего соответствия из линейных, экспоненциальных и логарифмических моделей на основе сравнения статистики соответствия?
- Если это так, то какой самый подходящий способ сделать это?
- Если регрессия помогает найти параметры (коэффициенты) в функции, почему не может быть дискретного параметра, чтобы выбрать, из какого семейства кривых получилось бы лучшее?
Ответы:
источник
Это вопрос, который действует в самых разных областях.
Лучшая модель - это та, которая может предсказать точки данных, которые не использовались при оценке параметров. В идеале можно рассчитать параметры модели с подмножеством набора данных и оценить производительность подбора для другого набора данных. Если вас интересуют подробности, сделайте поиск с помощью «перекрестной проверки».
Таким образом, ответ на первый вопрос - «Нет». Вы не можете просто взять лучшую подходящую модель. Изображение вы подгоняете полином с N-й степенью к N точкам данных. Это будет идеальная подгонка, потому что вся модель будет точно проходить по всем точкам данных. Однако эта модель не будет обобщать новые данные.
Насколько я могу сказать, наиболее подходящий способ - это вычислить, сколько ваша модель может обобщить для других наборов данных, используя метрики, которые одновременно наказывают амплитуду невязок и количество параметров в вашей модели. AIC и BIC - некоторые из этих метрик, о которых я знаю.
источник
Поскольку многие люди регулярно изучают соответствие различных кривых своим данным, я не знаю, откуда приходят ваши бронирования. Конечно, существует тот факт, что квадратик всегда будет соответствовать по крайней мере так же, как и линейный, и кубический, по крайней мере, так же, как и квадратичный, поэтому существуют способы проверить статистическую значимость добавления такого нелинейного термина и, таким образом, Избегайте ненужных сложностей. Но основная практика тестирования многих различных форм отношений - это просто хорошая практика. На самом деле, можно начать с очень гибкой регрессии Лёсса, чтобы увидеть, какой из кривых наиболее правдоподобен.
источник
Вам действительно нужно найти баланс между наукой / теорией, которая ведет к данным, и тем, что эти данные вам говорят. Как уже говорили другие, если вы позволите себе подобрать любое возможное преобразование (многочлены любой степени и т. Д.), То в конечном итоге вы перегрузитесь и получите что-то бесполезное.
Один из способов убедиться в этом - симуляция. Выберите одну из моделей (линейная, экспоненциальная, логарифмическая) и сгенерируйте данные, соответствующие этой модели (с выбором параметров). Если ваша условная дисперсия значений y мала по сравнению с разбросом переменной x, тогда простой график покажет, какая модель была выбрана и что такое «истина». Но если вы выбираете набор параметров таким образом, чтобы он не был очевиден из графиков (вероятно, в случае, когда аналитическое решение представляет интерес), тогда проанализируйте каждый из 3 способов и посмотрите, какой из них дает «наилучшее» соответствие. Я ожидаю, что вы обнаружите, что «наилучшее» соответствие часто не является «истинным» соответствием.
С другой стороны, иногда мы хотим, чтобы данные сообщали нам как можно больше, и у нас может не быть науки / теории, чтобы полностью определить природу отношений. В оригинальной статье Бокса и Кокса (JRSS B, том 26, № 2, 1964) обсуждаются способы сравнения нескольких преобразований переменной y, причем их заданный набор преобразований имеет линейный и логарифм в качестве особых случаев (но не экспоненциальный) , но ничто в теории статьи не ограничивает вас только их семейством преобразований, эту же методологию можно расширить, чтобы включить сравнение между тремя интересующими вас моделями.
источник