Кто-нибудь может объяснить мне реальные различия между регрессионным анализом и подгонкой кривой (линейной и нелинейной), с примером, если это возможно?
Кажется, что оба пытаются найти связь между двумя переменными (зависимыми и независимыми), а затем определяют параметр (или коэффициент), связанный с предлагаемыми моделями. Например, если у меня есть набор данных, таких как:
Y = [1.000 1.000 1.000 0.961 0.884 0.000]
X = [1.000 0.063 0.031 0.012 0.005 0.000]
Кто-нибудь может предложить формулу корреляции между этими двумя переменными? Мне трудно понять разницу между этими двумя подходами. Если вы предпочитаете подкреплять свой ответ другими наборами данных, то все в порядке, поскольку кажется, что этот вариант трудно уместить (возможно, только для меня).
Приведенный выше набор данных представляет оси и y кривой рабочей характеристики приемника (ROC), где y - истинно положительная скорость (TPR), а x - ложно-положительная скорость (FPR).
Я пытаюсь подогнать кривую или выполнить регрессионный анализ в соответствии с моим первоначальным вопросом, пока не уверен, среди этих точек, чтобы оценить TPR для любого конкретного FPR (или наоборот).
Во-первых, является ли научно приемлемым найти такую функцию подгонки кривой между двумя независимыми переменными (TPR и FPR)?
Во-вторых, с научной точки зрения приемлемо найти такую функцию, если я знаю, что распределения фактических отрицательных и фактических положительных случаев не являются нормальными?
источник
Ответы:
Я сомневаюсь, что существует четкое и последовательное различие между статистически мыслящими науками и областями между регрессией и подгонкой кривой .
Регрессия без квалификации подразумевает линейную регрессию и оценку методом наименьших квадратов. Это не исключает других или более широких смыслов: действительно, если вы разрешите логит, пуассон, отрицательную биномиальную регрессию и т. Д. И т. Д., Становится все труднее увидеть, что моделирование в некотором смысле не является регрессией.
Подгонка кривой буквально предлагает кривую, которая может быть нарисована на плоскости или, по крайней мере, в низкоразмерном пространстве. Регрессия не так ограничена и может предсказать поверхности в многомерном пространстве.
При построении кривой может использоваться или не использоваться линейная регрессия и / или метод наименьших квадратов. Это может относиться к подгонке полинома (степенной ряд) или набора синусоидальных и косинусных терминов или каким-либо другим образом фактически квалифицироваться как линейная регрессия в ключевом смысле подбора функциональной формы, линейной по параметрам. Действительно аппроксимация кривой, когда нелинейная регрессия также является регрессией.
Термин подгонка кривой может использоваться в уничижительном, уничижительном, оскорбительном или пренебрежительном смысле («это просто подгонка кривой!») Или (почти полная противоположность) он может относиться к подгонке конкретной кривой, тщательно выбранной с конкретной физической (биологической, экономическое, что угодно) обоснование или адаптация к конкретным видам начального или ограничивающего поведения (например, всегда положительное, ограниченное в одном или обоих направлениях, монотонное, с перегибом, с одной точкой поворота, колебательное и т. д.).
Одна из нескольких нечетких проблем здесь заключается в том, что одна и та же функциональная форма может быть в лучшем случае эмпирической в одних обстоятельствах и превосходной теорией в других. Ньютон учил, что траектории снарядов могут быть параболическими и поэтому естественным образом подгоняются квадратиками, в то время как квадратик, приспособленный к возрастной зависимости в социальных науках, часто является просто выдумкой, которая соответствует некоторой кривизне данных. Экспоненциальный распад - действительно хорошее приближение для радиоактивных изотопов и иногда не слишком сумасшедшее предположение о том, как стоимость земли уменьшается с расстоянием от центра.
Ваш пример не получает никаких откровений от меня. Здесь важно то, что при очень небольшом наборе данных и отсутствии точной информации о том, каковы переменные или как они должны себя вести, было бы безответственно или глупо предлагать модельную форму. Возможно, данные должны резко возрасти от (0, 0) и затем приблизиться к (1, 1), или, возможно, что-то еще. Вы говорите нам!
Заметка. Ни регрессия, ни аппроксимация кривой не ограничиваются отдельными предикторами или отдельными параметрами (коэффициентами).
источник
В дополнение к отличному ответу @ NickCox (+1) я хотел бы поделиться своим субъективным впечатлением по этой нечеткой теме терминологии . Я думаю, что довольно тонкая разница между этими двумя терминами заключается в следующем. С одной стороны, регрессия часто, если не всегда, подразумевает аналитическое решение (ссылка на регрессоры подразумевает определение их параметров , отсюда мой аргумент об аналитическом решении). С другой стороны, аппроксимация кривой не обязательно подразумевает создание аналитического решения, и IMHO часто может использоваться и используется как исследовательский подход .
источник