Можно ли сделать простую линейную регрессию без использования графиков и линейной алгебры?

47

Я полностью слепой и пришел из программирования.

Я пытаюсь научиться машинному обучению, и для этого мне сначала нужно узнать о линейной регрессии. Все объяснения в Интернете, которые я нахожу об этом предмете, наносят данные в первую очередь. Я ищу практическое объяснение линейной регрессии, которая не зависит от графиков и графиков.

Вот мое понимание цели простой линейной регрессии:

Простая линейная регрессия пытается найти формулу, которая, как только вы дадите Xей, даст вам самую близкую оценку Y.

Итак, насколько я понимаю, что нужно сделать, это сравнить предсказатель (например, площадь дома в квадратных футах) с независимой переменной (цена). В моем примере вы, вероятно, можете создать невизуальный способ получения наилучшей формулы для расчета цены дома по его площади. Например, может быть, вы бы получили площадь и цену 1000 домов по соседству и поделили бы цену на площадь? Результат (по крайней мере, в Иране, где я живу) будет иметь очень незначительную разницу. Так что вы, вероятно, получите что-то вроде этого:

Price = 2333 Rials * Area of the house

Конечно, тогда вам нужно будет пройти через все 1000 домов в вашем наборе данных, поместить площадь в формулу выше, сравнить оценку с реальной ценой, возвести в квадрат результаты (я полагаю, чтобы отклонения не компенсировали друг друга) и затем получите число, затем продолжайте играть с, 2333чтобы уменьшить количество ошибок.

Конечно, это вариант грубой силы, когда, вероятно, потребуются годы, чтобы вычислить ошибки и найти лучший вариант, но вы понимаете, о чем я говорю? Я ничего не говорил о графике, или линии, или точках на графике, или о лучшем способе подгонки линии к существующим данным.

Итак, зачем вам для этого график рассеяния и линейная алгебра? Нет ли невизуального способа?

Во-первых, я прав в своих предположениях? Если нет, я бы с удовольствием поправился. Есть ли у меня, однако, способ придумать формулу, не играя с линейной алгеброй?

Я был бы очень признателен, если бы мог получить пример с объяснением, чтобы я мог сделать это вместе с текстом, чтобы проверить свое понимание.

Пархам Дустдар
источник
2
Но есть ли у вас пространственное воображение, которое может принять видение? Если да, я предполагаю, что график рассеяния может быть каким-то образом представлен. Я сомневаюсь, что суть регрессии может быть уловлена ​​только с помощью пропозиционального мышления (например, словесного).
ttnphns
3
Какой у тебя математический фон? Страница Википедии под названием « Простая линейная регрессия» в основном текстовая, и, как мне кажется, она достаточно ясна в первом абзаце. Как эта статья соотносится с уровнем детализации, который вы ищете?
Shadowtalker
3
Я буду продолжать думать об этом, посмотрим, смогу ли я придумать, но сразу подумайте о регрессии как о решении уравнения, которое не имеет решения. Все ваши данные будут неверно спрогнозированы вашим регрессором (площадь дома). Вы ищете уравнение, которое делает ваши ошибки максимально терпимыми.
Антони Пареллада
8
отличный вопрос, нам нужно больше думать об объяснении наших концепций людям с ограниченными возможностями
Аксакал,
4
Вам не нужно использовать сюжет. Действительно, для множественной линейной регрессии (регрессии со многими предикторами) вы не можете построить мерное пространство. Тем не менее, линейная алгебра все еще работает. Все формулы линейной алгебры, включенные в линейную регрессию, могут быть сведены к операциям над простыми скалярными числами. Вы просто не захотите делать это вручную, если цените свое здравомыслие. p+1
предположения

Ответы:

17

Да, вы на это. Вы должны продолжать играть с 2333, пока не найдете правильный, который минимизирует ошибку. Но есть математический способ найти «правильный». Давайте назовем этот номер . , сумма квадратов ошибок (SSE) является функцией так как для каждого выбора можно рассчитать величину каждой оценки, возвести ее в квадрат и сложить их вместе.βEββ

Что минимизирует общую сумму квадратов ошибок? Это просто проблема исчисления. Возьмите производную от и установите ее равной нулю. Это дает уравнение для . Проверьте, что вторая производная положительна, чтобы знать, что это минимум. Таким образом, вы получаете уравнение для которое минимизирует ошибку.βEβββ

Если вы получите его таким образом, вы получите в качестве суммы. Если вы напишите форму оценки линейной алгебры, вы увидите, что это одно и то же.β

Изменить: Вот ссылка на некоторые заметки с этим типом происхождения. Математика становится немного грязной, но по сути это просто проблема исчисления.

Крис Ракауцкас
источник
О, МОЙ БОГ. В заключение! Нелинейно-алгебраический способ вычислить это. Концепции, о которых вы говорите в своем ответе, у меня над головой, но я определенно буду искать производные, чтобы лучше понять эту линию мышления.
Пархам Дустдар
1
Я связал некоторые заметки, которые объясняют это на довольно элементарном уровне. Я думаю, что для любого ответа понадобится исчисление, потому что способ решения таких задач, как «найти минимум », состоит в том, чтобы взять производную и установить ее равной нулю. Интуитивно, это просто говорит о том, что минимум (или максимум) холма будет там, где холм плоский (так как уклон самый высокий вдоль стороны холма!). Производная = уклон. Таким образом, в областях, где изменение начинает вызывать небольшие изменения в вы приближаетесь к минимуму (или максимуму. Вы должны убедиться, что это не максимум!). E(β)βE
Крис Ракауцкас
4
Эта идея затем приводит вас к машинному обучению. Одним из основных методов в машинном обучении является градиент приличного. Это в основном означает «следовать по склону». если вы продолжите позволять мячу катиться в направлении, где холм самый крутой, вы попадете на минимум. Таким образом, метод градиентного приличия заключается в том, чтобы сделать именно это: выяснить, какой способ изменения вызывает наибольшее уменьшение ошибки, и продолжайте в том же духе! β
Крис Ракауцкас
2
Для регрессии наименьших квадратов вам не нужно делать градиентный приличный, так как вы можете найти уравнение, которое является ответом, но это дает хороший способ понять, что такое машинное обучение. Это сводится к выбору способа измерения ошибки, а затем найти какой-то способ минимизировать уравнение ошибки. Результатом является «лучшее» уравнение оценки, полученное с помощью данных. Я надеюсь, что это поможет вам на вашем пути к машинному обучению!
Крис Ракауцкас
10

Ваше понимание близко, но нуждается в некотором расширении: простая линейная регрессия пытается найти формулу, которая, как только вы дадите Xей, даст вам наиболее близкую оценку на Y основе линейной зависимости между X и Y .

Ваш пример цен на жилье, когда он немного увеличен, показывает, почему вы получаете точечные графики и тому подобное. Во-первых, простое деление цены на площадь в других случаях не работает, например, цены на землю в моем родном городе, где правила строительства означают, что просто владение земельным участком, на котором вы можете построить дом, имеет высокую стоимость. Так что цены на землю не просто пропорциональны территориям. Каждое увеличение площади участка может давать одно и то же увеличение стоимости участка, но если вы спуститесь до (мифического) участка площадью 0, все равно будет существующая связанная с этим очевидная цена, которая представляет собой ценность просто владения участком земли это одобрено для строительства.

Это по-прежнему линейное соотношение между площадью и значением, но в отношении есть перехват , представляющий ценность просто владения участком. Тем не менее, это делает линейное соотношение тем, что изменение значения на единицу изменения площади, наклона или коэффициента регрессии всегда одинаково, независимо от величины области или значения.

Итак, скажем, что вы уже знаете как-то и перехват, и наклон, которые связывают участки участков со стоимостью, и вы сравниваете значения из этого линейного отношения с фактическими значениями, представленными недавними продажами. Вы обнаружите, что прогнозируемые и фактические значения редко, если вообще совпадают. Эти расхождения представляют ошибки в вашей модели и приводят к разбросу значений вокруг прогнозируемого соотношения. Вы получаете точечный график точек, сгруппированных вокруг вашей предсказанной прямой линии между площадью и значением.

В большинстве практических примеров вы еще не знаете точку пересечения и наклон, поэтому вы должны попытаться оценить их по данным. Вот что пытается сделать линейная регрессия.

Возможно, вам лучше подумать о линейной регрессии и связанном моделировании с точки зрения оценки максимального правдоподобия , то есть поиска значений конкретных параметров в вашей модели, которые делают данные наиболее вероятными. Это похоже на подход «грубой силы», который вы предлагаете в своем вопросе, но с несколько иной мерой того, что вы пытаетесь оптимизировать. С современными вычислительными методами и интеллектуальным дизайном шаблона поиска это можно сделать довольно быстро.

Оценка максимального правдоподобия может быть концептуализирована способами, которые не требуют графического сюжета и похожи на то, как вы, кажется, уже думаете. В случае линейной регрессии как стандартная регрессия наименьших квадратов, так и максимальное правдоподобие дают одинаковые оценки перехвата и наклона.

Мышление с точки зрения максимальной вероятности имеет дополнительное преимущество, заключающееся в том, что оно лучше распространяется на другие ситуации, где нет строго линейных отношений. Хорошим примером является логистическая регрессия, в которой вы пытаетесь оценить вероятность возникновения события на основе переменных предиктора. Это может быть достигнуто с максимальной вероятностью, но в отличие от стандартной линейной регрессии, нет простого уравнения, которое производит перехват и наклоны в логистической регрессии.

магистр педагогических наук
источник
1
Я думал, что «линейный» в «линейной регрессии» означает «линейный по параметрам», поэтому вы можете иметь в качестве независимой переменной, но коэффициент каждой независимой переменной должен отображаться линейным образом ? x2
@fcop вы правы. Я начал с примера, предоставленного ФП, в котором утверждалось о пропорциональности между ценностями и областями. Я склонен думать о преобразованных значениях исходных переменных-предикторов как о фактических независимых переменных в регрессии, когда используются такие преобразования, как полномочия или журналы. Я думаю, что на практике это в основном является различием в терминологии, хотя существуют различия в моделях подразумеваемых ошибок.
EdM
Я понимаю вашу точку зрения, во всяком случае, это был хороший ответ (+1)
7

Прежде всего, мои комплименты. Всем сложно бороться со статистикой (я врач, поэтому вы можете догадаться, насколько мне тяжело) ...

Я могу предложить не визуальное объяснение линейной регрессии , но нечто очень близкое: тактильное объяснение линейной регрессии .

Представьте, что вы входите в комнату от двери. Комната более или менее квадратной формы, а дверь находится в левом нижнем углу. Вы хотите попасть в следующую комнату, дверь которой, как вы ожидаете, будет находиться в верхнем правом углу, более или менее. Представьте, что вы не можете точно сказать, где находится следующая дверь (когда-либо!), Но в комнате разбросаны люди, которые могут сказать вам, куда идти. Они тоже не могут видеть, но они могут сказать вам, что там рядом с ними. Последний путь, по которому вы пойдете к следующей двери, управляемой этими людьми, аналогичен линии регрессии, которая минимизирует расстояние между этими людьми и ведет вас к двери, близко к (если не на) правильному пути.

Joe_74
источник
1
(+1) Мне очень нравится ваш пример, и забавно, что по чистой случайности мы использовали очень похожую иллюстрацию для этой задачи!
Тим
«Комната более или менее квадратной формы» - что такое квадрат для слепых? С этим предложением вы вернули нас туда, откуда мы должны были начать.
Аксакал
4
Я не согласна Пусть они пройдут 10 футов в одном направлении, затем повернутся на 90 ° (например, с размахом руки) и снова пройдут 10 футов. Это квадрат, если вы не можете видеть правильно.
Joe_74
@ GiuseppeBiondi-Zoccai, если я строю модель давления в камере на температуру, зачем мне нужно поднимать квадраты и линии и другие пространственные понятия? Это, конечно, удобно, если вы не слепой, но для слепого эти пространственные аналогии ничего не приводят к таблице для рассматриваемой проблемы, они только усложняют экспозицию
Аксакал
2
Опять же, я вежливо не согласен ... я всегда предполагал, что слепые люди особенно развили тактильные пространственные навыки. Во всяком случае, любой пример, который работает хорошо, и тем больше, тем лучше.
Joe_74
3

Хороший пример, который может помочь в вашем вопросе, был представлен Эндрю Гельманом и Дэвидом К. Парком (2012). Давайте придерживаться ваш пример прогнозирования цены дома учитывая его площадь . Для этого мы используем простую модель линейной регрессииYX

Y=β0+β1X+ε

Для простоты давайте забудем о intercept , вы можете проверить эту , чтобы узнать, почему это важно . Эти данные можно визуализировать на диаграмме рассеяния. Что такое scatterplot? Представьте себе двумерное пространство (это может быть комната), точки данных «разбросаны» вокруг места, где значения обеих переменных отмечают их координаты оси и оси. То, что вы уже знаете, это то, что это как-то переводится в модель линейной регрессии.β0yx

Чтобы было понятно, давайте упростим этот пример еще больше - как это сделали Гельман и Пак. Упрощение, которое они предложили, состоит в том, чтобы разделитьβ 1Xпеременная, т. е. площадь дома, на три группы: «маленькие», «средние» и «большие» дома (они описывают, как оптимально принять такое решение, но это имеет меньшее значение). Далее рассчитаем средний размер «маленького» дома и средний размер «большого» дома. Рассчитайте также среднюю цену на «маленький» дом и «большой». Теперь сократите ваши данные до двух точек - центров облаков точек данных для маленьких и больших домов, разбросанных в пространстве, и удалите все точки данных о «средних» домах. Вы остаетесь с двумя точками в двухмерном пространстве. Линия регрессии - это линия, соединяющая точки - вы можете думать о ней как о направлении от одной точки к другой. β1

То же самое происходит, когда у нас больше точек, разбросанных по пространству: линия регрессии находит свой путь, минимизируя свое квадратное расстояние до каждой точки. Таким образом, линия проходит точно через центр облака точек, рассеянных в пространстве. Вместо того, чтобы соединять две точки, вы можете думать об этом как о соединении неограниченного количества таких центральных точек.


Gelman, A. & Park, DK (2012). Разделение предиктора на верхнюю четверть или третье и нижнее четверть или третье. Американский статистик, 62 (4), 1-8.

Тим
источник
3

Краткий ответ - да. Какая линия проходит лучше всего через середину всех точек, которые составляют всю поверхность или только поверхность самолета или копья? Нарисуй это; в вашей голове или на картинке. Вы ищите и на той отдельной линии, от которой каждая точка (представляющая интерес, независимо от того, строите ли вы ее или нет), что будет способствовать наименьшему (среди точек) отклонению от этой линии. Если вы делаете это на глаз, неявно по здравому смыслу, вы приблизите (на удивление хорошо) математически рассчитанный результат. Для этого есть формулы, которые беспокоят глаз и могут не иметь здравого смысла. В схожих формализованных задачах в области техники и науки рассеиватели все еще предполагают предварительную оценку на глаз, но на этих аренах можно предположить «тестовую» вероятность того, что линия - это линия. Это идет вниз оттуда. Тем не мение, Вы, очевидно, пытаетесь научить машину оценивать (в сущности) размеры и границы (а) крупного скотного двора и (б) рассеянного скота внутри него. Если вы дадите своей машине то, что составляет картину (графическую, алгебраическую) недвижимости и жителей, она должна уметь вычислять (аккуратно разделить среднюю линию каплю на две части, вычислить дескаттер на линию), что вы хотите, чтобы она делала. Любой учебник по приличной статистике (попросите учителей или профессоров назвать более одного) должен в первую очередь излагать как всю суть линейной регрессии, так и как это сделать в простейших случаях (начиная с непростых случаев). Несколько кренделей позже, вы будете иметь дело с этим. Если вы дадите своей машине то, что составляет картину (графическую, алгебраическую) недвижимости и жителей, она должна уметь вычислять (аккуратно разделить среднюю линию каплю на две части, вычислить дескаттер на линию), что вы хотите, чтобы она делала. Любой учебник по приличной статистике (попросите учителей или профессоров назвать более одного) должен в первую очередь излагать как всю суть линейной регрессии, так и как это сделать в простейших случаях (начиная с непростых случаев). Несколько кренделей позже, вы будете иметь дело с этим. Если вы дадите своей машине то, что составляет картину (графическую, алгебраическую) недвижимости и жителей, она должна уметь вычислять (аккуратно разделить среднюю линию каплю на две части, вычислить дескаттер на линию), что вы хотите, чтобы она делала. Любой учебник по приличной статистике (попросите учителей или профессоров назвать более одного) должен в первую очередь излагать как всю суть линейной регрессии, так и как это сделать в простейших случаях (начиная с непростых случаев). Несколько кренделей позже, вы будете иметь дело с этим. Любой учебник по приличной статистике (попросите учителей или профессоров назвать более одного) должен в первую очередь излагать как всю суть линейной регрессии, так и как это сделать в простейших случаях (начиная с непростых случаев). Несколько кренделей позже, вы будете иметь дело с этим. Любой учебник по приличной статистике (попросите учителей или профессоров назвать более одного) должен в первую очередь излагать как всю суть линейной регрессии, так и как это сделать в простейших случаях (начиная с непростых случаев). Несколько кренделей позже, вы будете иметь дело с этим.


В re: комментарий Silverfish к моему посту выше (кажется, нет простого способа добавить комментарий к этому комментарию), да, OP слепой, изучает машинное обучение и требует практичности без графиков или графиков, но я предполагаю, что он способен отличить «визуализацию» от «видения», визуализирует и имеет истинные картины в голове, и у него есть базовое представление о всевозможных физических объектах в окружающем его мире (домах, среди прочих), так что он все еще может » рисовать «как математически, так и иначе» в своей голове, и, вероятно, может дать хорошее подобие 2D и 3D на бумаге. В настоящее время широкий спектр книг и других текстов доступен как на физическом шрифте Брайля, так и в электронном виде на собственном компьютере (например, для форумов, словарей и т. Д.), и у многих школ для слепых есть довольно полные учебные планы. Вместо самолета или дротика диван или трость не обязательно будут более подходящими, и статистические тексты, вероятно, доступны. Его меньше беспокоит то, как машины могут научиться строить и изображать или вычислять регрессию, а затем то, как машины могут учиться делать что-то эквивалентное (и более базовое), чтобы понять регрессию (может ли машина отображать ее, реагировать на нее, следовать это, избежать этого, или что-нибудь). Основное направление (как для слепых, так и для зрячих студентов) по-прежнему заключается в том, как визуализировать то, что может быть невизуальным (например, понятие линейности, а не случай нарисованной линии, как до Евклида и Пифагора), и как визуализировать основная цель особого вида линейности (регрессия, базовая точка которой лучше всего подходит для наименьшего отклонения, с самого начала в математике и статистике). Вывод регрессии Фортрана у линейного принтера едва ли «визуален» до тех пор, пока он не умственно усвоен, но даже базовая точка регрессии является воображаемой (линия, которой нет, пока она не сделана для какой-то цели).

отдельная возвышенность с крутыми или обрывистыми склонами
источник
2
Возможно, я неправильно понимаю этот ответ, но «нарисовать его, в своей голове или на картинке», кажется, несколько упускает суть вопроса: первоначальный вопрос задает тот, кто полностью слеп, и поэтому ищет не визуальный способ приближения к регрессии.
Серебряная рыба
Ответ @Silverfish (слишком длинный для комментария) был отредактирован в ответ выше
Благодарю. Я думал, что голосование было немного резким (это был не я), но некоторые варианты выбора языка в этом ответе были неудачными (например, есть несколько ссылок на действия «на глаз»). Тем не менее, я могу понять, почему вы хотели бы провести различие между визуальным восприятием и тем, что можно визуализировать «умственным глазом».
Серебряная рыба
2
Я могу визуализировать вещи в своем уме. Просто я не использую те же способы визуализации. Дело не в том, чтобы не использовать drawили visualize. Это просто вопрос использования концепции для получения визуализации, а не наоборот. Я обнаружил, что это происходит во многих местах математики. Для объяснения сложного предмета обычно используются формы и изображения, а не соотносятся расчеты с понятиями, которые учащийся узнает из реальной жизни.
Пархам Дустдар
3

Причина, по которой графики повсеместно используются для введения простой регрессии - реакции, предсказываемой одним предиктором, - в том, что они помогают пониманию.

Тем не менее, я верю, что могу дать что-то из аромата, которое поможет понять, что происходит. В этом я в основном сосредоточусь на попытках передать некоторые из понимания, которое они дают, что может помочь с некоторыми из других аспектов, с которыми вы обычно сталкиваетесь при чтении о регрессии. Так что этот ответ в основном будет касаться определенного аспекта вашего поста.

Представьте, что вы сидите перед большим прямоугольным столом, например обычным офисным столом, один полный размах руки (возможно, 1,8 метра), а может быть, и вдвое меньше.

Вы сидите перед столом в обычном положении, в середине одной длинной стороны. На этом столе большое количество гвоздей (с довольно гладкими головками) было забито в верхнюю поверхность, так что каждый из них немного приподнимается (достаточно, чтобы чувствовать, где они находятся, и достаточно, чтобы привязать к ним веревку или прикрепить резинку ).

Эти гвозди находятся на разных расстояниях от вашего края стола таким образом, что по направлению к одному концу (скажем, к левому концу) они, как правило, ближе к вашему краю стола, а затем, когда вы двигаетесь к другому концу, головки гвоздя как правило, подальше от вашего края.

Далее представьте, что было бы полезно иметь представление о том, как далеко в среднем гвозди находятся от вашего края в любой заданной позиции вдоль вашего края.

Выберите какое-нибудь место вдоль края стола и поместите туда свою руку, затем протяните руку прямо через стол, осторожно перетаскивая руку прямо назад к себе, затем снова в сторону, перемещая руку назад и вперед по головкам гвоздя. Вы сталкиваетесь с несколькими дюжинами ударов от этих гвоздей - те, которые находятся в пределах этой узкой ширины вашей руки (когда она движется прямо от вашего края, на постоянном расстоянии от левого конца стола), разрез или полоса, шириной около десяти сантиметров ,

Идея состоит в том, чтобы определить среднее расстояние до гвоздя от вашего края стола в этой маленькой секции. Интуитивно понятно, что это всего лишь середина ударов, которые мы ударили, но если бы мы измерили каждое расстояние до гвоздя в этой части стола шириной в руку, мы могли бы легко вычислить эти средние значения.

Например, мы могли бы использовать Т-квадрат , голова которого скользит по краю стола, а стержень которого движется к другой стороне стола, но чуть выше стола, поэтому мы не ударяем гвоздями, когда он скользит влево или правильно - проходя данный гвоздь, мы можем получить его расстояние вдоль стержня Т-квадрата.

Таким образом, в последовательности мест вдоль нашего края мы повторяем это упражнение, обнаруживая все гвозди в полосе шириной руки, идущей к нам и от нас, и определяя их среднее расстояние. Возможно, мы разделим стол на полосы шириной руки вдоль нашего края (чтобы каждый гвоздь встречался ровно в одной полосе).

Теперь представьте, что, скажем, 21 такая полоса, первая на левом краю и последняя на правом краю. Средства удаляются от нашего стола, когда мы продвигаемся по полосам.

Эти средства образуют простую непараметрическую регрессионную оценку ожидания y (нашего расстояния), заданного x (расстояние вдоль нашего края от левого конца), то есть E (y | x). В частности, это бинарная непараметрическая оценка регрессии, также называемая регрессионной

Если эти полоски означают регулярное увеличение, то есть среднее значение, как правило, увеличивается примерно на то же количество на полоску, как мы перемещались по полосам, тогда мы могли бы лучше оценить нашу функцию регрессии, предполагая, что ожидаемое значение y было линейным функция х - то есть, что ожидаемое значение у данного х было константой плюс кратное х. Здесь константа представляет, где гвозди имеют тенденцию быть, когда мы в точке х равен нулю (часто мы можем поместить это в крайний левый край, но это не обязательно должно быть), а конкретное кратное х является тем, насколько быстро в среднем среднее значение меняется, когда мы движемся на один сантиметр (скажем) вправо.

Но как найти такую ​​линейную функцию?

Представьте, что мы наматываем одну резиновую полосу на каждую головку гвоздя и прикрепляем каждую к длинной тонкой палочке, которая лежит чуть выше стола, на вершине гвоздя, так, чтобы она лежала где-то рядом с «серединой» каждой полоски, которой мы были за.

Мы прикрепляем ленты таким образом, чтобы они растягивались только в направлении к нам и от нас (не влево или вправо) - влево, чтобы они потянули так, чтобы направление растяжения было направлено палкой под прямым углом, но здесь мы предотвращаем это, так что их направление растяжения остается только в направлениях к нашему краю стола или от него. Теперь мы позволяем палочке оседать, когда полосы тянут ее к каждому гвоздю, с более удаленными гвоздями (с более растянутыми резиновыми полосами), тянущими соответственно сильнее, чем гвозди рядом с палкой.

Тогда объединенный результат всех полос, натягивающих палку, будет (в идеале, по крайней мере) тянуть палку, чтобы минимизировать сумму квадратов длин растянутых резиновых полос; в этом направлении непосредственно через стол расстояние от нашего края стола до палки в любой заданной позиции x будет нашей оценкой ожидаемого значения y для x.

По сути, это оценка линейной регрессии.

Теперь представьте, что вместо гвоздей у ​​нас есть большое количество фруктов (например, маленьких яблок), свисающих с большого дерева, и мы хотим найти среднее расстояние между фруктами над землей, которое зависит от положения на земле. Представьте себе, что в этом случае высота над землей увеличивается по мере того, как мы идем вперед, и немного больше, когда мы движемся вправо, снова в обычном порядке, поэтому каждый шаг вперед обычно меняет среднюю высоту примерно на одну и ту же величину, а каждый шаг к право также изменит среднее значение примерно на постоянную величину (но эта величина изменения среднего в шаговом праве отличается от величины изменения шага вперед).

Если мы минимизируем сумму квадратов вертикальных расстояний от плодов до тонкого плоского листа (возможно, тонкого листа очень жесткого пластика), чтобы выяснить, как изменяется средняя высота при движении вперед или вправо, это будет линейная регрессия с двумя предикторами - множественная регрессия.

Это только два случая, которые графики могут помочь понять (они могут быстро показать то, что я только что подробно описал, но, надеюсь, вы знаете, есть основа для концептуализации тех же идей). Помимо этих двух самых простых случаев, у нас остается только математика.

Теперь возьмите пример цены вашего дома; Вы можете изобразить площадь каждого дома на расстоянии вдоль вашего края стола - представить наибольший размер дома как позицию рядом с правым краем, каждый другой размер дома будет находиться на некотором расстоянии слева, где определенное количество сантиметров будет представлять некоторое количество квадратных метров. Теперь расстояние представляет цену продажи. Представьте самый дорогой дом как какое-то определенное расстояние около самого дальнего края стола (как всегда, край, самый дальний от вашего стула), а каждый смещенный сантиметр будет представлять собой некоторое количество риалов.

А пока представьте, что мы выбрали представление так, чтобы левый край стола соответствовал нулевой площади дома, а ближний край - цене дома 0. Затем мы вбиваем гвоздь для каждого дома.

У нас, вероятно, не будет никаких гвоздей около левого края нашего края (они могут быть в основном вправо и от нас), потому что это не обязательно хороший выбор масштаба, но ваш выбор модели без перехватов делает это лучший способ обсудить это.

Теперь в вашей модели вы заставляете палку проходить через петлю веревки в левом углу ближнего края стола - таким образом вынуждаете подобранную модель иметь нулевую цену для нулевой области, что может показаться естественным - но представьте, если есть некоторые довольно постоянные компоненты цены, которые влияли на каждую продажу. Тогда имеет смысл иметь перехват, отличный от нуля.

В любом случае, с добавлением этой петли, то же упражнение с резинкой, что и раньше, найдет нашу оценку методом наименьших квадратов линии.

Glen_b
источник
Вау, спасибо за этот длинный пространственный ответ. Это многое объяснило. Благодарю.
Пархам Дустдар
2

Сталкивались ли вы с тостером, который часто посещаете в отелях? Вы кладете хлеб на ленточный конвейер на одном конце, и он выходит как тост на другом. К сожалению, в тостере в этом дешевом отеле все нагреватели перемещены на случайные высоты и расстояния от входа в тостер. Вы не можете перемещать нагреватели или изгибать путь ремня (между прочим, это прямая линия (именно здесь входит линейный бит), но вы можете изменить ВЫСОТУ и НАКЛОН ремня.

Учитывая положение всех нагревателей, линейная регрессия подскажет вам правильную высоту и угол, чтобы разместить ремень, чтобы получить наибольшее количество тепла в целом. Это связано с тем, что линейная регрессия минимизирует среднее расстояние между тостом и нагревателями.

Моей первой работой в отпуске было выполнение линейных регрессий вручную. Парень, который сказал, что ты не хочешь этого делать, ПРАВИЛЬНО !!!

Крис Дж
источник
2

Мое любимое объяснение линейной регрессии - геометрическое, но не визуальное. Он обрабатывает набор данных как одну точку в многомерном пространстве, а не разбивает его на облако точек в двумерном пространстве.

Площадь и цена дома - это пара чисел, которые вы можете рассматривать как координаты точки в двумерном пространстве. Области и цены тысячи домов представляют собой тысячу пар чисел, которые можно рассматривать как координаты точки в двухтысячном пространстве. Для удобства я назову двухмерное пространство «пространством данных». Ваш набор данных является единственной точкой в ​​пространстве данных.ap(a,p)a1,,a1000p1,,p1000

D=(a1,,a1000,p1,,p1000)
D

Если бы соотношение между площадью и ценой было совершенно линейным, точка находилась бы в совершенно особой области пространства данных, которую я назову «линейным листом». Он состоит из точек Числа и могут изменяться, но фиксируются так, чтобы быть теми же областями, что и в вашем наборе данных. Я называю линейный лист «листом», потому что он двумерный: точка на нем задается двумя координатами иD

M(ρ,β)=(a1,,a1000,ρa1+β,,ρa1000+β).
ρβa1,,a1000ρβ, Если вы хотите получить представление о форме линейного листа, представьте себе тонкий прямой провод, натянутый через трехмерное пространство. Линейный лист такой: он совершенно плоский, и его размеры очень малы по сравнению с размером пространства, в котором он находится.

В реальном районе соотношение между площадью и ценой не будет идеально линейным, поэтому точка не будет находиться точно на линейном листе. Однако он может находиться очень близко к линейному листу. Цель линейной регрессии найти точку на линейном листе , который сидит ближе всего к точке данных . Эта точка - лучшая линейная модель для данных.DM(ρ,β)D

Используя теорему Пифагора, вы можете выяснить, что квадрат расстояния между и равен Другими словами, расстояние между точкой данных и точкой модели является общей квадратичной ошибкой модели! Минимизация общей квадратичной ошибки модели - это то же самое, что минимизация расстояния между моделью и данными в пространстве данных.M ( ρ , β ) [ p 1 - ( ρ a 1 + β ) ] 2 + + [ p 1000 - ( ρ a 1000 + β ) ] 2 .DM(ρ,β)

[p1(ρa1+β)]2++[p1000(ρa1000+β)]2.

Как указал Крис Ракаукас , исчисление дает очень практичный способ найти координаты и которые минимизируют расстояние между и .β D M ( ρ , β )ρβDM(ρ,β)

Vectornaut
источник
1

Ответы @Chris Rackauckas и @ EDM точны. Есть много способов приблизиться к простой линейной регрессии, которые не требуют построения графиков или визуальных объяснений обычной оценки наименьших квадратов, и они дают очень четкие объяснения того, что на самом деле происходит, когда вы используете OLS.

Я мог бы добавить, что при использовании диаграмм рассеяния в качестве инструмента обучения для изучения любых новых процедур моделирования, будь то параметрическая модель старой школы, продвинутые технологии машинного обучения или байесовские алгоритмы, построение графиков может помочь сократить время, необходимое для изучения того, что алгоритм делает.

Графики также очень важны для предварительного анализа данных, когда вы впервые начинаете работать с новым набором данных. У меня были ситуации, когда я собирал много данных, разрабатывал теорию, тщательно планировал свою модель, а затем запускал ее, чтобы в итоге получить результаты, которые по существу не имели предсказательной силы. Построение двумерных отношений может устранить некоторые догадки: в вашем примере, возможно, что цена дома линейно связана с площадью, но, возможно, отношения не являются линейными. Диаграммы рассеяния помогают вам решить, нужны ли вам термины более высокого порядка в вашей регрессии, или вы хотите использовать метод, отличный от линейной регрессии, или если вы хотите использовать какой-то непараметрический метод.

Крис К
источник
1

Гугл для Анскомб Квартет.

Он показывает 4 набора данных, которые при численном осмотре не показывают большой разницы.

Однако при создании визуального точечного графика различия становятся резко заметными.

Это дает довольно четкое представление о том, почему вы всегда должны строить свои данные, регрессию или отсутствие регрессии :-)

ctd2015
источник
0

Мы хотим иметь решение, которое минимизирует разницу между прогнозируемыми и фактическими значениями.

Предположим, что т.е. существует линейная зависимость.y=bx+a

Нам не важно, положительна ли или отрицательна разница между прогнозируемой и фактической предполагая, что распределение ошибок обладает определенными свойствами .уyy

Если мы предположим, что распределение ошибок нормально распределено, оказывается, что есть аналитическое решение этой проблемы минимизации. Сумма квадратов разностей является наилучшим значением для минимизации для наилучшего соответствия. Но нормальность не обязательна в общем случае.

В этом нет ничего особенного.

Геометрическая интерпретация оказывается полезной, поскольку сумма квадратов имеет интерпретацию в виде суммы расстояний точек на диаграмме рассеяния от линии . И человеческий глаз очень хорош в приближении линии, которая соответствует наилучшему соответствию. Так что это было удобно до того, как у нас появились компьютеры, чтобы быстро найти нужную форму.y=bx+a

В настоящее время это не просто помощь в понимании, но нет необходимости действительно понимать линейную регрессию.

РЕДАКТИРОВАТЬ: заменить нормальность допущения ошибок с правильным, но менее кратким списком. Нормальность должна была иметь аналитическое решение и может быть принята для многих практических случаев, и в этом случае сумма квадратов является оптимальной не только для линейной оценки, но и максимизирует вероятность.

Если в дальнейшем справедливо предположение о нормальности распределения ошибок, то сумма квадратов является оптимальной как для линейных, так и для нелинейных оценок и максимизирует вероятность.

Диего
источник
1
Предположение о нормальном распределении не требуется для всего, что вы описали
Aksakal
Просьба
Диего
Ссылка не имеет ничего общего с вашим ответом. Если вы расширили свойства небольшого образца или MLE, то вы могли бы ввести допущение нормального распределения, но в нынешнем виде описание OLS в вашем ответе не нуждается в нормальном распределении. Фактически, чтобы свести к минимуму сумму квадратов, вам не нужно никакого распределения или статистики вообще. Это чистая алгебра.
Аксакал
Дело в том, почему мы минимизируем сумму квадратов, а не какую-то другую метрику. Не о том, как минимизировать сумму квадратов.
Диего
Минимизация суммы квадратов не имеет ничего общего с нормальным распределением. Это просто ваша функция потери. Любое другое распределение ошибок может использоваться с этой функцией потерь. В некоторых случаях вам нужны распределения, например, если вы хотите сделать выводы о значениях параметров в небольших выборках и т. Д. Даже в этом случае вы можете использовать другие распределения, я не уверен, почему вы застряли на нормальном.
Аксакал