Если мне нужна интерпретируемая модель, существуют ли другие методы, кроме линейной регрессии?

18

Я сталкивался с некоторыми статистиками, которые никогда не используют модели, кроме линейной регрессии, для прогнозирования, потому что они считают, что «модели ML», такие как случайный лес или повышение градиента, трудно объяснить или «не интерпретируются».

В линейной регрессии, учитывая, что набор предположений проверен (нормальность ошибок, гомоскедастичность, отсутствие мультиколлинеарности), t-тесты предоставляют способ проверить значимость переменных, тесты, которые, насколько мне известно, недоступны в случайные леса или модели повышения градиента.

Поэтому мой вопрос: хочу ли я моделировать зависимую переменную с набором независимых переменных, для удобства интерпретации я должен всегда использовать линейную регрессию?

Виктор
источник
6
Зависит от того, что вы все еще считаете линейным. Обобщенные линейные модели и обобщенные аддитивные модели все еще работают на основе оцениваемого линейного компонента, но могут моделировать широкий спектр взаимосвязей.
Франс Роденбург
2
Также зависит, что вы подразумеваете под интерпретируемым. Для моделей машинного обучения были предложены различные способы «всматриваться в черный ящик», но они могут соответствовать или не соответствовать вашим целям.
user20160
5
Я не совсем понимаю, как логическая статистика и t-тесты связаны с интерпретируемостью, в которой IMO главным образом занимается оценками коэффициентов.
С. Коласса - Восстановить Монику
3
@StephanKolassa «Взаимозаменяемость» также может относиться к форме функции . Например, оценки коэффициентов, полученные с помощью алгоритмического подбора кривой дробного полинома в регрессионных моделях (линейная регрессия, GLM или что-то еще), хотя и получают хорошее соответствие , почти наверняка антиинтуитивны: вы можете вспомнить массив произведенных форм моделями вида , и, следовательно,интерпретироватьотношения между y и x, вытекающие из ваших оценок коэффициентов? yi=β0+β1xi3/5+β2xi1/3+β3xi3+εiyx
Алексис
2
@UserX То, что вы описываете, все еще является линейной регрессией (т.е. является линейной по параметрам). Контраст с y i = β 0 + β 1 x i + x β 2 i + ε i : первая модель является линейной регрессией, а последний не может быть оценен с помощью линейной регрессии. yi=β0+β1xi+β2xi2+εiyi=β0+β1xi+xiβ2+εi
Алексис

Ответы:

29

Мне трудно поверить, что вы слышали, как люди говорят это, потому что это было бы глупо. Это все равно что сказать, что вы используете только молоток (включая сверление отверстий и замену лампочек), потому что он прост в использовании и дает предсказуемые результаты.

Во-вторых, линейная регрессия не всегда «интерпретируема». Если у вас есть модель линейной регрессии со многими полиномиальными терминами или просто множеством функций, это будет трудно интерпретировать. Например, предположим, что вы использовали необработанные значения каждого из 784 пикселей из MNIST † в качестве объектов. Знание о том, что вес пикселя 237 равен -2311,67, скажет вам что-нибудь о модели? Для данных изображений было бы гораздо проще понять карты активации сверточной нейронной сети.

Наконец, существуют модели, которые в равной степени интерпретируются, например, логистическая регрессия, деревья решений, наивный алгоритм Байеса и многие другие.

† - Как заметил @Ingolifs в комментарии и как обсуждалось в этой теме , MNIST может быть не лучшим примером, так как это очень простой набор данных. Для большинства наборов данных реалистичных изображений логистическая регрессия не будет работать, а просмотр весов не даст никаких простых ответов. Однако, если вы посмотрите ближе на веса в связанном потоке, то их интерпретация также не будет простой, например, веса для предсказания «5» или «9» не показывают какой-либо очевидной закономерности (см. Изображение ниже, скопированное из другого потока ).

Тим
источник
2
Я думаю, что этот ответ хорошо показывает, насколько четко можно объяснить логистическую регрессию в MNIST.
Инголифс
1
@Ingolifs согласны, но это карта активации, вы можете сделать то же самое для нейронной сети.
Тим
Независимо от того, как он называется, он дает четкое объяснение того, что использует логистическая регрессия для принятия решений таким образом, которого вы на самом деле не получаете для карт активации нейронных сетей.
Инголифс
1
@Ingolifs MNIST, возможно, не лучший пример, потому что он очень прост, но дело в том, что вы использовали бы тот же метод для нейронной сети.
Тим
11

Дерево решений было бы другим выбором. Или Лассо Регрессия, чтобы создать разреженную систему.

Посмотрите на этот рисунок из книги « Введение в статистическое обучение» . http://www.sr-sv.com/wp-content/uploads/2015/09/STAT01.pngвведите описание изображения здесь

Haitao Du
источник
Что такое книга "ISL"?
Донлан
1
@donlan amazon.com/… спасибо за исправленный ответ.
Haitao Du
нет проблем! собирался посмотреть это после прочтения этой
темы
7

Я бы согласился с ответами Тима и mkt - модели ML не обязательно должны быть интерпретируемыми. Я бы направил вас к Описательному объяснению машинного обучения, пакету DALEX R, который посвящен созданию интерпретируемых моделей ML.

babelproofreader
источник
1
Пакет DALEX действительно очень интересен, знаете ли вы что-то подобное для Python?
Виктор
@Victor Я не знаю версию DALEX для Python, но вы можете попробовать вызвать R из Python, используя, например, rpy2.readthedocs.io/en/version_2.8.x/introduction.html .
babelproofreader
6

Нет, это излишне ограничительно. Существует широкий спектр интерпретируемых моделей, включая не только (как говорит Франс Роденбург) линейные модели, обобщенные линейные модели и обобщенные аддитивные модели, но и методы машинного обучения, используемые для регрессии. Я включаю случайные леса, градиентные машины, нейронные сети и многое другое. Тот факт, что вы не получаете коэффициенты из моделей машинного обучения, которые аналогичны коэффициентам линейных регрессий, не означает, что их работу нельзя понять. Это займет немного больше работы.

Чтобы понять почему, я бы рекомендовал прочитать этот вопрос: Получение знаний из случайного леса . Это показывает, как вы можете приблизить интерпретацию практически любой модели машинного обучения.

mkt - восстановить монику
источник