Является ли линейная регрессия устаревшей? [закрыто]

12

Сейчас я учусь в классе линейной регрессии, но я не могу избавиться от ощущения, что то, что я изучаю, больше не актуально ни для современной статистики, ни для машинного обучения. Почему так много времени тратится на заключение о простой или множественной линейной регрессии, когда в наши дни так много интересных наборов данных часто нарушают многие нереалистичные предположения о линейной регрессии? Почему бы вместо этого не учить выводу о более гибких, современных инструментах, таких как регрессия, с использованием машин опорных векторов или гауссовского процесса? Хотя это и сложнее, чем найти гиперплоскость в космосе, разве это не даст студентам гораздо лучший фон для решения современных дневных проблем?

Аноним Эму
источник
10
Делают ли отвертки молотки устаревшими? Или каждый выполняет свою задачу?
Sycorax сообщает, что восстановит Монику
6
У меня есть многофункциональный инструмент, который функционирует как нож, пила, пара разных отверток, плоскогубцы и, возможно, пара других вещей, но когда мне нужен какой-либо из этих инструментов, это последнее, чего я достигну. Это полезно только в крайнем случае, это никогда не «лучший инструмент для работы».
Даррен
7
Много-много ситуаций, с которыми сталкиваются реальные люди, включают очень маленькие наборы данных с высоким уровнем шума; во многих случаях более сложные модели неосуществимы, в то время как, по крайней мере, большую часть времени простая линейная модель является, по крайней мере, устойчивой. Хотя большие наборы данных (и связанные с ними проблемы) будут продолжать расти как доля общего анализа данных, который продолжается, очень маленькие наборы данных и относительно простой анализ, на который они полагаются, никогда не исчезнут. К этому следует добавить, что более сложные инструменты создаются непосредственно поверх простых, не только исторически, но и концептуально.
Glen_b
6
В дополнение ко многим ситуациям, когда линейная регрессия имеет постоянное практическое применение, также стоит отметить, что она является основой для изучения широкого класса более сложных аддитивных моделей. В этом отношении этот вопрос как бы спрашивает, не делает ли исчисление устаревшую арифметику.
Джейкоб Соколар
1
@Aksakal Пожалуйста, опишите подробно. Как насчет использования в байесовской оптимизации?
Марк Л. Стоун

Ответы:

24

Это правда, что предположения о линейной регрессии не являются реалистичными. Однако это верно для всех статистических моделей. «Все модели ошибочны, но некоторые полезны».

Полагаю, у вас сложилось впечатление, что нет причин использовать линейную регрессию, когда вы можете использовать более сложную модель. Это не так, потому что в целом более сложные модели более уязвимы для переоснащения и используют больше вычислительных ресурсов, что важно, например, если вы пытаетесь делать статистику на встроенном процессоре или веб-сервере. Более простые модели также легче понять и интерпретировать; Напротив, сложные модели машинного обучения, такие как нейронные сети, как правило, оказываются черными ящиками, более или менее.

Даже если когда-нибудь линейная регрессия станет практически бесполезной (что в обозримом будущем кажется крайне маловероятным), она все равно будет теоретически важной, поскольку более сложные модели, как правило, основываются на линейной регрессии в качестве основы. Например, чтобы понять регуляризованную логистическую регрессию со смешанными эффектами, сначала необходимо понять простую старую линейную регрессию.

Нельзя сказать, что более сложные, новые и блестящие модели не являются полезными или важными. Многие из них есть. Но более простые модели являются более широко применимыми и, следовательно, более важными и имеют смысл представлять сначала, если вы собираетесь представлять множество моделей. Есть много плохих данных анализа, проводимых в эти дни людьми, которые называют себя «исследователями данных» или что-то в этом роде, но даже не знают основополагающих вещей, например, каков на самом деле доверительный интервал. Не будь статистикой!

Kodiologist
источник
Можете ли вы уточнить, что вы подразумеваете под «сложной моделью»? OP означает то же самое?
Хатшепсут
1
@Hatshepsut Практически все, что не является просто линейной регрессией или ее частным случаем. ФП привел в качестве примеров SVM и модели гауссовского процесса. Я упомянул смешанные модели, логистическую регрессию и наказанную регрессию. Некоторыми другими примерами являются деревья решений, нейронные сети, MARS, байесовские иерархические модели и модели структурных уравнений. Если вы спрашиваете, как мы решаем, является ли одна модель более сложной, чем другая, или что именно считается моделью, это вопросы взаимной проверки для самих себя.
Кодиолог
«Переобучение»; как использование полинома девятого порядка, чтобы соответствовать чему-то, что оказалось взвешенной суммой экспонент. Это было так хорошо, что график воспроизводил погрешности прибора чуть выше уровня шума. Я все еще задаюсь вопросом, сработало ли бы на самом деле использование этого полинома лучше.
Джошуа
7

Линейная регрессия в целом не устарела . Есть еще люди, которые работают над исследованиями, связанными с методами, связанными с LASSO, и с тем, как они связаны, например, с множественным тестированием - вы можете поискать у Эммануэля Кандеса и Малгожата Богдана.

Если вы спрашиваете об алгоритме OLS, в частности, ответ, почему они учат этому, состоит в том, что этот метод настолько прост, что имеет решение в замкнутой форме. Кроме того, это просто проще, чем регрессия гребня или версия с лассо /asticnet. Вы можете построить свою интуицию / доказательства на решении простой линейной регрессии, а затем обогатить модель дополнительными ограничениями.

Якуб Барчук
источник
3

Я не думаю, что регрессия устарела, она может рассматриваться как тривиальная для некоторых проблем, с которыми в настоящее время сталкиваются ученые, занимающиеся данными, но все еще является азбукой статистического анализа. Как вы должны понимать, работает ли SVM правильно, если вы не знаете, как работает самая простая модель? Использование такого простого инструмента научит ВАС изучать данные, прежде чем переходить к сумасшедшим сложным моделям, и глубоко понимать, какие инструменты можно использовать для дальнейшего анализа, а какие нет. Однажды, побеседовав с моим профессором и моим коллегой, она сказала мне, что ее ученики отлично умеют применять сложные модели, но они не могут понять, что такое рычаг или читать простой qq-график, чтобы понять, что не так с данными. Зачастую в самой простой и читаемой модели выделяется красота.

Фра Контин
источник
3

Краткий ответ - нет . Например, если вы попробуете линейную модель с данными MNIST, вы все равно получите ~ 90% точности!

Длинный ответ будет «в зависимости от области», но линейная модель широко используется.

  • В некоторых областях, скажем, в медицинских исследованиях, получить одну точку данных очень дорого. И анализ работы все еще похож на много лет назад: линейная регрессия по-прежнему играет очень важную роль.

  • В современном машинном обучении, скажем, текстовой классификации, линейная модель все еще очень важна, хотя есть и другие более интересные модели. Это связано с тем, что линейная модель очень «стабильна», поэтому она будет меньше перегружать данные.

Наконец, линейная модель действительно является строительным материалом для большинства других моделей. Хорошее обучение принесет вам пользу в будущем.

Хайтау Ду
источник
2

На практике линейная регрессия полезна, даже если вы также используете более сложную модель для своей работы. Ключ в том, что линейная регрессия проста для понимания и, следовательно, проста в использовании для концептуального понимания того, что происходит в более сложных моделях.

Я могу предложить вам пример практического применения из моей реальной работы в качестве статистического аналитика. Если вы оказались в дикой природе, без присмотра, с большим набором данных, и ваш начальник попросил вас провести некоторый анализ, с чего начать? Что ж, если вы не знакомы с набором данных и не имеете четкого представления о том, как различные функции должны быть связаны друг с другом, то сложная модель, подобная предложенной вами, является плохим местом для начала исследования.

Вместо этого лучше всего начать с простой старой линейной регрессии. Выполните регрессионный анализ, посмотрите на коэффициенты и построите график остатков. Как только вы начнете видеть, что происходит с данными, вы сможете принять решение о том, какие дополнительные методы вы собираетесь применить.

Я утверждаю, что если вы просто подключите свои данные к некоторому усовершенствованному черному ящику модели, например, sklearn.svm (если вы в Python), то у вас будет очень низкая уверенность в том, что ваши результаты будут значимыми.

kingledion
источник