Как логистическая регрессия может создавать кривые, которые не являются традиционными функциями?

15

Я думаю, что у меня есть некоторая фундаментальная путаница в отношении того, как работают функции в логистической регрессии (или, может быть, просто функции в целом).

Как получается, что функция h (x) создает кривую, видимую слева на изображении?

Я вижу, что это график двух переменных, но тогда эти две переменные (x1 и x2) также являются аргументами самой функции. Я знаю стандартные функции отображения одной переменной на один выход, но эта функция явно этого не делает - и я не совсем уверен, почему.

введите описание изображения здесь

Моя интуиция заключается в том, что сине-розовая кривая на самом деле не изображена на этом графике, а скорее представляет собой представление (круги и X), которые отображаются на значения в следующем измерении (третьем) графика. Это рассуждение ошибочно, и я что-то упускаю? Спасибо за понимание / интуицию.

Сэм
источник
8
Обратите внимание на метки оси, обратите внимание, что ни одна из них не помечена как . Y
Мэтью Друри
3
Какой будет «традиционная функция»?
whuber
@matthewDrury Я понимаю это, и это объясняет 2D X / Os. Я спрашиваю, откуда тогда идет построенная кривая
Сэм

Ответы:

19

Это пример переобучения курса Coursera по ML Эндрю Нгом в случае модели классификации с двумя признаками , в которой истинные значения обозначены и и граница принятия решения точно адаптирована к обучающему набору с использованием полиномиальных терминов высокого порядка.× ,(Икс1,Икс2)×,

Проблема, которую он пытается проиллюстрировать, связана с тем фактом, что, хотя линия принятия решения о границе (криволинейная линия синим цветом) не приводит к неправильной классификации каких-либо примеров, ее способность обобщать из обучающего набора будет поставлена ​​под угрозу. Эндрю Нг продолжает объяснять, что регуляризация может смягчить этот эффект, и рисует пурпурную кривую как границу решения, менее плотную по отношению к обучающему набору и с большей вероятностью обобщающую.


Что касается вашего конкретного вопроса:

Моя интуиция заключается в том, что сине-розовая кривая на самом деле не изображена на этом графике, а скорее представляет собой представление (круги и X), которые отображаются на значения в следующем измерении (третьем) графика.

Высота отсутствует (третье измерение): есть две категории и и линия принятия решений показывает, как модель разделяет их. В более простой модели) ,(×),

часθ(Икс)знак равнограмм(θ0+θ1Икс1+θ2Икс2)

граница решения будет линейной.


Возможно, вы имеете в виду что-то вроде этого, например:

5+2Икс-1,3Икс2-1.2Икс2Y+1Икс2Y2+3Икс2Y3

введите описание изображения здесь

Однако обратите внимание, что в гипотезе есть функция - логистическая активация в вашем первоначальном вопросе. Таким образом, для каждого значения и полиномиальная функция подвергается «активации» (часто нелинейной, например, в сигмовидной функции, как в OP, хотя не обязательно (например, RELU)). В качестве ограниченного вывода активация сигмоидальной формы поддается вероятностной интерпретации: идея в модели классификации заключается в том, что при заданном пороговом значении выход будет помечен как илиФактически, непрерывный вывод будет сведен к двоичному выводу.грамм()Икс1Икс2× (),(1,0)

В зависимости от весов (или параметров) и функции активации каждая точка в плоскости признаков будет отображаться в категорию или . Эта маркировка может быть или не быть правильной: они будут правильными, когда точки в образце, нарисованные и на плоскости на рисунке на ОП соответствуют предсказанные метки. Границы между областями плоскости с меткой и соседними областями с меткой . Они могут быть линией или несколькими линиями, изолирующими «острова» (посмотрите сами, играя с этим приложением Тони Фишетти(Икс1,Икс2)×××часть этой записи в блоге о R-блогерах ).

Обратите внимание на запись в Википедии о границе решения :

В задаче статистической классификации с двумя классами граница решения или поверхность решения - это гиперповерхность, которая разделяет базовое векторное пространство на два набора, по одному для каждого класса. Классификатор будет классифицировать все точки на одной стороне границы решения как принадлежащие одному классу, а все точки на другой стороне как принадлежащие другому классу. Граница решения - это область проблемного пространства, в которой выходная метка классификатора неоднозначна.

Нет необходимости в компоненте высоты для отображения фактической границы. Если, с другой стороны, вы наносите на график значение активации сигмоида (непрерывное с диапазоном тогда вам необходим третий («высота») компонент для визуализации графика:[0,1]),

введите описание изображения здесь


Если вы хотите , чтобы ввести визуализацию D для поверхности решений, проверить этот слайд на онлайн курса по Нижегородскому Уго Larochelle , представляющая активацию нейрона:3

введите описание изображения здесь

где , а - вектор весов в примере в OP. Наиболее интересным является тот факт, что ортогональна разделяющему «гребню» в классификаторе: фактически, если гребень представляет собой (гипер-) плоскость, вектор весов или параметров является вектором нормали.Y1знак равночасθ(Икс)W(Θ)Θ

Объединяя несколько нейронов, эти разделяющие гиперплоскости могут быть добавлены и вычтены, чтобы получить капризные формы:

введите описание изображения здесь

Это связано с теоремой универсального приближения .

Антони Пареллада
источник
1
+1 всегда с удовольствием читаю твой ответ. Возможно, было бы еще лучше, если бы плоскость принятия решений пересекалась с вашим сюжетом. чтобы показать некоторые выше, а некоторые ниже.
Haitao Du
Большое спасибо за это. Мне все еще кажется, что я упускаю что-то маленькое в самой кривой - значит ли это, что граница принятия решения на самом деле не «рисуется», а скорее является способом Эндрю Нга, указывающим пороговые значения значений x1 и x2 сделать гипотезу либо ×, либо ∘? Я думаю, что некоторая моя путаница проистекала из того, как эта кривая могла быть функцией в первую очередь, но теперь я понимаю, что это не так.
Сэм
1
@AntoniParellada Это здорово, теперь я вижу различие. Большое спасибо за помощь.
Сэм
0

У нас есть некоторые сверхмощные математики, отвечающие на этот вопрос. Я никогда не видел диаграмму, подобную той, что изображена здесь, со значениями для предикторов X1 и X2 и линией «границы решения», отделяющей предсказанные положительные стороны от предсказанных отрицательных. (или это карта прогнозируемых и фактических результатов?) Но это полезно - если у вас есть только два предиктора интереса, которые вы хотите отобразить.
Похоже, что пурпурная линия отделяет прогнозируемые позитивы от прогнозируемых негативов, тогда как темно-синяя линия включает все позитивы. Это обычно имеет место в логистической регрессии: модель будет правильно прогнозировать результат менее чем в 100% случаев (и будет предсказывать некоторые ложные срабатывания и / или ложные отрицания).
Можно запустить логистическую регрессию и заставить процедуру создать функцию h (x) для каждого отдельного случая в наборе данных. Это даст оценку склонности для каждого субъекта от 0 до 1, которая дает прогнозируемую вероятность или вероятность положительного результата для каждого субъекта на основе переменных предиктора этого субъекта на основе модели логистической регрессии с использованием всех субъектов. Те, у кого показатель предрасположенности равен 0,5 или выше, по прогнозам, будут иметь результат, а те, кто ниже 0,5, по прогнозам не будут иметь результата. Но вы можете отрегулировать этот уровень отсечки по своему усмотрению, например, чтобы создать диагностическую модель прогнозирования какого-либо результата на основе всех входных переменных, которые введены в ваш анализ логистической регрессии. Вы можете установить отсечение на 0,3, например. Затем вы можете составить таблицу прогнозируемых и фактических результатов 2X2 и определить свою чувствительность, специфичность, уровень ложноположительных и ложноотрицательных результатов модели на основе этого уровня отсечки. Это дает больше информации, а также освобождает вас от ограничения 2 переменных, используемых в вашем графике. Вы можете использовать столько предикторов, сколько сможете разумно вписать в модель, и при этом составить таблицу результатов 2X2 с фактическим прогнозированием. Поскольку в логистической регрессии используются категориальные (да-нет) результаты, каждая ячейка в таблице 2X2 представляет собой просто число субъектов, которые соответствуют критериям строки и столбца. Вы можете использовать столько предикторов, сколько сможете разумно вписать в модель, и при этом составить таблицу результатов 2X2 с фактическим прогнозированием. Поскольку в логистической регрессии используются категориальные (да-нет) результаты, каждая ячейка в таблице 2X2 представляет собой просто число субъектов, которые соответствуют критериям строки и столбца. Вы можете использовать столько предикторов, сколько сможете разумно вписать в модель, и при этом составить таблицу результатов 2X2 с фактическим прогнозированием. Поскольку в логистической регрессии используются категориальные (да-нет) результаты, каждая ячейка в таблице 2X2 представляет собой просто число субъектов, которые соответствуют критериям строки и столбца.
На графике, который вы предоставляете, это, вероятно, предполагает отсечение 0,5. Это общее значение по умолчанию для программного обеспечения. Если вы отрегулируете его выше (например, до 0,65), он может включать все О внутри линии, но у вас также будут некоторые ложные срабатывания (Х, которые, по его мнению, должны быть О), которые будут предсказаны моделью для получения результата интерес. (или отрегулируйте показатель отсечки ниже и получите больше ложных негативов).
Надеюсь, это поможет.

Джерри
источник