Сейчас я учусь в классе линейной регрессии, но я не могу избавиться от ощущения, что то, что я изучаю, больше не актуально ни для современной статистики, ни для машинного обучения. Почему так много времени тратится на заключение о простой или множественной линейной регрессии, когда в наши дни так много интересных наборов данных часто нарушают многие нереалистичные предположения о линейной регрессии? Почему бы вместо этого не учить выводу о более гибких, современных инструментах, таких как регрессия, с использованием машин опорных векторов или гауссовского процесса? Хотя это и сложнее, чем найти гиперплоскость в космосе, разве это не даст студентам гораздо лучший фон для решения современных дневных проблем?
regression
machine-learning
linear
teaching
Аноним Эму
источник
источник
Ответы:
Это правда, что предположения о линейной регрессии не являются реалистичными. Однако это верно для всех статистических моделей. «Все модели ошибочны, но некоторые полезны».
Полагаю, у вас сложилось впечатление, что нет причин использовать линейную регрессию, когда вы можете использовать более сложную модель. Это не так, потому что в целом более сложные модели более уязвимы для переоснащения и используют больше вычислительных ресурсов, что важно, например, если вы пытаетесь делать статистику на встроенном процессоре или веб-сервере. Более простые модели также легче понять и интерпретировать; Напротив, сложные модели машинного обучения, такие как нейронные сети, как правило, оказываются черными ящиками, более или менее.
Даже если когда-нибудь линейная регрессия станет практически бесполезной (что в обозримом будущем кажется крайне маловероятным), она все равно будет теоретически важной, поскольку более сложные модели, как правило, основываются на линейной регрессии в качестве основы. Например, чтобы понять регуляризованную логистическую регрессию со смешанными эффектами, сначала необходимо понять простую старую линейную регрессию.
Нельзя сказать, что более сложные, новые и блестящие модели не являются полезными или важными. Многие из них есть. Но более простые модели являются более широко применимыми и, следовательно, более важными и имеют смысл представлять сначала, если вы собираетесь представлять множество моделей. Есть много плохих данных анализа, проводимых в эти дни людьми, которые называют себя «исследователями данных» или что-то в этом роде, но даже не знают основополагающих вещей, например, каков на самом деле доверительный интервал. Не будь статистикой!
источник
Линейная регрессия в целом не устарела . Есть еще люди, которые работают над исследованиями, связанными с методами, связанными с LASSO, и с тем, как они связаны, например, с множественным тестированием - вы можете поискать у Эммануэля Кандеса и Малгожата Богдана.
Если вы спрашиваете об алгоритме OLS, в частности, ответ, почему они учат этому, состоит в том, что этот метод настолько прост, что имеет решение в замкнутой форме. Кроме того, это просто проще, чем регрессия гребня или версия с лассо /asticnet. Вы можете построить свою интуицию / доказательства на решении простой линейной регрессии, а затем обогатить модель дополнительными ограничениями.
источник
Я не думаю, что регрессия устарела, она может рассматриваться как тривиальная для некоторых проблем, с которыми в настоящее время сталкиваются ученые, занимающиеся данными, но все еще является азбукой статистического анализа. Как вы должны понимать, работает ли SVM правильно, если вы не знаете, как работает самая простая модель? Использование такого простого инструмента научит ВАС изучать данные, прежде чем переходить к сумасшедшим сложным моделям, и глубоко понимать, какие инструменты можно использовать для дальнейшего анализа, а какие нет. Однажды, побеседовав с моим профессором и моим коллегой, она сказала мне, что ее ученики отлично умеют применять сложные модели, но они не могут понять, что такое рычаг или читать простой qq-график, чтобы понять, что не так с данными. Зачастую в самой простой и читаемой модели выделяется красота.
источник
Краткий ответ - нет . Например, если вы попробуете линейную модель с данными MNIST, вы все равно получите ~ 90% точности!
Длинный ответ будет «в зависимости от области», но линейная модель широко используется.
В некоторых областях, скажем, в медицинских исследованиях, получить одну точку данных очень дорого. И анализ работы все еще похож на много лет назад: линейная регрессия по-прежнему играет очень важную роль.
В современном машинном обучении, скажем, текстовой классификации, линейная модель все еще очень важна, хотя есть и другие более интересные модели. Это связано с тем, что линейная модель очень «стабильна», поэтому она будет меньше перегружать данные.
Наконец, линейная модель действительно является строительным материалом для большинства других моделей. Хорошее обучение принесет вам пользу в будущем.
источник
На практике линейная регрессия полезна, даже если вы также используете более сложную модель для своей работы. Ключ в том, что линейная регрессия проста для понимания и, следовательно, проста в использовании для концептуального понимания того, что происходит в более сложных моделях.
Я могу предложить вам пример практического применения из моей реальной работы в качестве статистического аналитика. Если вы оказались в дикой природе, без присмотра, с большим набором данных, и ваш начальник попросил вас провести некоторый анализ, с чего начать? Что ж, если вы не знакомы с набором данных и не имеете четкого представления о том, как различные функции должны быть связаны друг с другом, то сложная модель, подобная предложенной вами, является плохим местом для начала исследования.
Вместо этого лучше всего начать с простой старой линейной регрессии. Выполните регрессионный анализ, посмотрите на коэффициенты и построите график остатков. Как только вы начнете видеть, что происходит с данными, вы сможете принять решение о том, какие дополнительные методы вы собираетесь применить.
Я утверждаю, что если вы просто подключите свои данные к некоторому усовершенствованному черному ящику модели, например, sklearn.svm (если вы в Python), то у вас будет очень низкая уверенность в том, что ваши результаты будут значимыми.
источник