Определение функции подбора кривой наилучшего соответствия из линейных, экспоненциальных и логарифмических функций

18

Контекст:

Из вопроса об обмене стеками по математике (могу ли я построить программу) кто-то имеет набор точек и хочет подогнать к нему кривую, линейную, экспоненциальную или логарифмическую. Обычный метод состоит в том, чтобы начать с выбора одного из них (который определяет модель), а затем выполнить статистические вычисления.Икс-Y

Но что действительно нужно, так это найти «лучшую» кривую из линейной, экспоненциальной или логарифмической.

Якобы, можно попробовать все три и выбрать наиболее подходящую кривую из трех в соответствии с наилучшим коэффициентом корреляции.

Но почему-то я чувствую, что это не совсем кошерно. Общепринятый метод - сначала выбрать модель, одну из этих трех (или какую-либо другую функцию связи), а затем по данным рассчитать коэффициенты. И постфактум сбор лучших - это сбор вишни. Но для меня, независимо от того, определяете ли вы функцию или коэффициенты по данным, это все равно, ваша процедура обнаруживает лучшее ... (скажем, что эта функция - еще один коэффициент, который можно обнаружить).

Вопросов:

  • Уместно ли выбирать модель наилучшего соответствия из линейных, экспоненциальных и логарифмических моделей на основе сравнения статистики соответствия?
  • Если это так, то какой самый подходящий способ сделать это?
  • Если регрессия помогает найти параметры (коэффициенты) в функции, почему не может быть дискретного параметра, чтобы выбрать, из какого семейства кривых получилось бы лучшее?
Митч
источник
1
Для вашего удобства я добавил тег выбора модели : при связывании с ним будет создано большое количество непосредственно релевантных тем. Другие теги, на которые стоит обратить внимание, включают aic . В конечном итоге вы должны обнаружить, что в математической формулировке этой проблемы отсутствуют два существенных элемента: описание того, как и почему точки могут отклоняться от теоретической кривой, и указание на стоимость не совсем правильной кривой. В отсутствие этих элементов существует много разных подходов, которые могут давать разные ответы, показывающие, что «лучший» является плохо определенным.
whuber
1
Вы можете выделить процент ваших данных, чтобы выполнить проверку модели и выбрать модель, которая лучше всего соответствует этому набору данных проверки. Таким образом, в сущности, у вас было бы три отдельных набора для разделения ваших данных на: 1. данные для обучения одной модели 2. данные, которые проверяют каждую модель, позволяющую выбрать лучшую модель, и 3. ваши фактические окончательные данные проверки, которые не затрагивались ,
Кляйнег
1
@kleineg Это звучит как правильное направление. Выбор модели (например, между lin / exp / log) подобен гиперпараметру одной модели, который в некотором смысле является просто еще одной стадией регулярных параметров, и можно обобщить шаг в него с помощью отдельных этапов обучения / проверки / тестирования.
Митч
Актуальный: {Тонкий способ перехитрить] ( johndcook.com/blog/2015/03/17/a-subtle-way-to-over-fit ) - выбор между несколькими функциями модели (например, exp vs linear против log) просто другой параметр. Вы могли бы думать о нем как о гиперпараметре (который потребовал бы шага проверки) или обычном параметре в сложной функции комбинации (где это будет проверено на шаге теста).
Митч

Ответы:

9
  • Возможно, вы захотите проверить бесплатное программное обеспечение под названием Eureqa . Он имеет конкретную цель - автоматизировать процесс нахождения как функциональной формы, так и параметров заданного функционального отношения.
  • Если вы сравниваете модели с разным числом параметров, вы, как правило, хотите использовать меру соответствия, которая оштрафовывает модели с большим количеством параметров. Существует обширная литература, в которой мера соответствия наиболее подходит для сравнения моделей, и проблемы становятся более сложными, когда модели не являются вложенными. Мне было бы интересно услышать, что другие считают наиболее подходящим индексом сравнения моделей с учетом вашего сценария (в качестве побочной точки, недавно в моем блоге обсуждались индексы сравнения моделей в контексте сравнения моделей для подбора кривой).
  • По моему опыту, нелинейные регрессионные модели используются по причинам, выходящим за рамки чисто статистического соответствия данным данным:
    1. Нелинейные модели делают более правдоподобные прогнозы за пределами диапазона данных
    2. Нелинейные модели требуют меньше параметров для эквивалентной подгонки
    3. Нелинейные регрессионные модели часто применяются в областях, где проводятся существенные предварительные исследования и выбор моделей для теории.
Джером англим
источник
5

Это вопрос, который действует в самых разных областях.

Лучшая модель - это та, которая может предсказать точки данных, которые не использовались при оценке параметров. В идеале можно рассчитать параметры модели с подмножеством набора данных и оценить производительность подбора для другого набора данных. Если вас интересуют подробности, сделайте поиск с помощью «перекрестной проверки».

Таким образом, ответ на первый вопрос - «Нет». Вы не можете просто взять лучшую подходящую модель. Изображение вы подгоняете полином с N-й степенью к N точкам данных. Это будет идеальная подгонка, потому что вся модель будет точно проходить по всем точкам данных. Однако эта модель не будет обобщать новые данные.

Насколько я могу сказать, наиболее подходящий способ - это вычислить, сколько ваша модель может обобщить для других наборов данных, используя метрики, которые одновременно наказывают амплитуду невязок и количество параметров в вашей модели. AIC и BIC - некоторые из этих метрик, о которых я знаю.

бонобо
источник
3

Поскольку многие люди регулярно изучают соответствие различных кривых своим данным, я не знаю, откуда приходят ваши бронирования. Конечно, существует тот факт, что квадратик всегда будет соответствовать по крайней мере так же, как и линейный, и кубический, по крайней мере, так же, как и квадратичный, поэтому существуют способы проверить статистическую значимость добавления такого нелинейного термина и, таким образом, Избегайте ненужных сложностей. Но основная практика тестирования многих различных форм отношений - это просто хорошая практика. На самом деле, можно начать с очень гибкой регрессии Лёсса, чтобы увидеть, какой из кривых наиболее правдоподобен.

rolando2
источник
3
То, будет ли квадратичное соответствие лучше, будет зависеть от того, насколько хорошо вы работаете. В частности, если вы используете меру соответствия, которая штрафует модели с большим количеством параметров (например, AIC), то, например, соответствие может быть хуже для квадратичного по сравнению с линейным.
Jeromy Anglim
9
@rolando, возможно, я неправильно понимаю, но, честно говоря, этот (неквалифицированный) совет - именно тот тип вещей, против которого мы, статистики, проводим так много времени, «борясь». В частности, если ОП интересует что-то помимо простого подбора кривой, например, прогнозирование или умозаключение, очень важно понять последствия подхода «просто попробуй все, что можешь придумать» для статистики.
кардинал
2
У меня возникают проблемы при согласовании этих комментариев с традициями Анскомба, Тьюки, Мостеллера, Туфте и Кливленда, в которых подчеркивается необходимость визуализации и изучения данных, а также оценки формы каждого отношения перед построением модели, установлением коэффициентов или генерирование другой статистики.
rolando2
8
Существует много противоречий относительно их подходов. Упрощенный способ суммировать эти проблемы состоит в том, что если вы хотите узнать о шаблонах и сделать новые открытия, которые требуют дальнейшей проверки, целесообразен аналитический анализ. Если вы хотите сделать вывод (от конкретной выборки до общей популяции, используя значения P, доверительные интервалы и т. Д.), То не так много.
Фрэнк Харрелл
4
Это самая продуктивная ветка комментариев, которую я видел в CV, особенно биржа b / t rolando2 (3 ^) & @FrankHarrell. Я также нахожу оба подхода очень привлекательными. Мое собственное разрешение планировать , что тест заранее и только подходит / тест , что модель для рисования однозначных выводов, но и тщательно изучить данные (ш / о полагая , результаты обязательно удержания) ради обнаружения , что может быть правдой и планирование для следующего исследования. (Должен ли я провести еще одно исследование и проверить что-нибудь, будет ли это интересно / важно?) Ключом является ваше мнение о результатах этого анализа.
gung - Восстановить Монику
3

Вам действительно нужно найти баланс между наукой / теорией, которая ведет к данным, и тем, что эти данные вам говорят. Как уже говорили другие, если вы позволите себе подобрать любое возможное преобразование (многочлены любой степени и т. Д.), То в конечном итоге вы перегрузитесь и получите что-то бесполезное.

Один из способов убедиться в этом - симуляция. Выберите одну из моделей (линейная, экспоненциальная, логарифмическая) и сгенерируйте данные, соответствующие этой модели (с выбором параметров). Если ваша условная дисперсия значений y мала по сравнению с разбросом переменной x, тогда простой график покажет, какая модель была выбрана и что такое «истина». Но если вы выбираете набор параметров таким образом, чтобы он не был очевиден из графиков (вероятно, в случае, когда аналитическое решение представляет интерес), тогда проанализируйте каждый из 3 способов и посмотрите, какой из них дает «наилучшее» соответствие. Я ожидаю, что вы обнаружите, что «наилучшее» соответствие часто не является «истинным» соответствием.

С другой стороны, иногда мы хотим, чтобы данные сообщали нам как можно больше, и у нас может не быть науки / теории, чтобы полностью определить природу отношений. В оригинальной статье Бокса и Кокса (JRSS B, том 26, № 2, 1964) обсуждаются способы сравнения нескольких преобразований переменной y, причем их заданный набор преобразований имеет линейный и логарифм в качестве особых случаев (но не экспоненциальный) , но ничто в теории статьи не ограничивает вас только их семейством преобразований, эту же методологию можно расширить, чтобы включить сравнение между тремя интересующими вас моделями.

Грег Сноу
источник