Является ли машинное обучение менее полезным для понимания причинности, и, следовательно, менее интересным для социальных наук?

42

Мое понимание различий между машинным обучением / другими методами статистического прогнозирования и видом статистики, которую используют ученые-социологи (например, экономисты), заключается в том, что экономисты, похоже, очень заинтересованы в понимании влияния одной или нескольких переменных - как с точки зрения величина и выявление причинно-следственных связей. Для этого вы в конечном итоге относитесь к себе с экспериментальными и квазиэкспериментальными методами и т. Д.

Машинное обучение или статистическое моделирование, которое является прогностическим, часто полностью игнорирует этот аспект и во многих случаях не дает вам конкретной степени, в которой одна переменная влияет на результат (логит и пробит, кажется, делают оба).

Связанный вопрос заключается в том, в какой степени теоретически вдохновленные экономические или поведенческие модели имеют преимущество перед атеоретическими моделями при прогнозировании новых областей? Что бы сказал специалист по машинному обучению или статистике, ориентированному на прогнозирование, на критику, что без экономической модели вы не сможете правильно предсказать новые выборки, в которых ковариаты сильно различаются.

Я был бы очень рад услышать, как люди воспринимают это со всех точек зрения.

d_a_c321
источник
Вопрос. Вы хотели написать «атеоретические модели», и если да, что вы имели в виду? ИЛИ ты просто имел в виду «теоретический»?
Фахим Митха
2
Возможно, вы смотрите на порождающие и дискриминационные модели? Машинное обучение склоняется к дискриминационным моделям и методам.
Уэйн
@FaheemMitha: «аторетический»: без теории.
naught101

Ответы:

32

ИМХО нет формальных различий, которые отличают машинное обучение и статистику на фундаментальном уровне подгонки моделей к данным. Могут быть культурные различия в выборе моделей, целях подгонки моделей к данным и, в некоторой степени, расширении интерпретаций.

В типичных примерах, которые я могу себе представить, мы всегда имеем

  • коллекция моделей для для некоторого индекса ,MiiII
  • и для каждого неизвестный компонент (параметры, может быть бесконечномерным) модели .iθiMi

Монтаж к данным почти всегда математическая задача оптимизации , состоящая в нахождении оптимального выбора неизвестного компонента , чтобы соответствовать данным, измеренным с помощью какой - то любимой функции.MiθiMi

Выбор среди моделей менее стандартен, и существует целый ряд доступных методик. Если цель подбора модели является чисто прогнозирующей, то выбор модели осуществляется с попыткой получить хорошие прогностические характеристики, тогда как если основной целью является интерпретация полученных моделей, более легко интерпретируемые модели могут быть выбраны среди других моделей, даже если их предсказательная сила, как ожидается, будет хуже.Mi

То, что можно назвать выбором статистической модели старой школы, основано на статистических тестах, возможно, в сочетании со пошаговыми стратегиями выбора, тогда как выбор модели машинного обучения обычно фокусируется на ожидаемой ошибке обобщения, которая часто оценивается с помощью перекрестной проверки. Текущие разработки и понимание выбора моделей, однако, похоже, сходятся к более общей точке зрения, см., Например, Выбор модели и Усреднение модели .

Вывод причинности из моделей

Суть в том, как мы можем интерпретировать модель? Если полученные данные получены из тщательно спланированного эксперимента и модель адекватна, вполне вероятно, что мы можем интерпретировать эффект изменения переменной в модели как причинный эффект, и если мы повторим эксперимент и вмешаемся в эту конкретную переменную мы можем ожидать наблюдения предполагаемого эффекта. Однако, если данные являются наблюдательными, мы не можем ожидать, что предполагаемые эффекты в модели соответствуют наблюдаемым эффектам вмешательства. Это потребует дополнительных предположений независимо от того, является ли модель «моделью машинного обучения» или «классической статистической моделью».

Может случиться так, что у людей, обученных использованию классических статистических моделей с акцентом на одномерные оценки параметров и интерпретации величины эффекта, складывается впечатление, что причинно-следственная интерпретация в этой структуре более обоснована, чем в системе машинного обучения. Я бы сказал, что это не так.

Область причинного вывода в статистике на самом деле не устраняет проблему, но она делает предположения, на которых основываются причинные выводы, явными. Они упоминаются как непроверенные предположения . Статья Каузальный вывод в статистике: обзор Иудеи Перл - хорошая статья для чтения. Основным вкладом в причинно-следственную связь является сбор методов оценки причинно-следственных связей при допущениях, когда фактически существуют ненаблюдаемые факторы, которые в противном случае вызывают серьезную озабоченность. Смотрите Раздел 3.3 в Жемчужной статье выше. Более сложный пример можно найти в статье « Предельные структурные модели и причинно-следственная связь в эпидемиологии» .

Вопрос в том, верны ли непроверяемые предположения. Они абсолютно непроверяемы, потому что мы не можем проверить их, используя данные. Для обоснования предположений требуются другие аргументы.

В качестве примера того, где машинное обучение и причинно-следственная связь встречаются, идеи целенаправленной оценки максимального правдоподобия, представленные Марком ван дер Лааном и Даниелем Рубином в Targeted Learning Максимальное правдоподобие, обычно используют методы машинного обучения для непараметрической оценки с последующим «таргетированием». «к параметру интереса. Последнее вполне может быть параметром с причинной интерпретацией. Идея в Супер Ученикэто в значительной степени полагаться на методы машинного обучения для оценки параметров, представляющих интерес. Марк ван дер Лаан (личное общение) отмечает, что классические, простые и «интерпретируемые» статистические модели часто ошибочны, что приводит к необъективным оценкам и слишком оптимистичной оценке неопределенности оценок.

NRH
источник
Спасибо за этот невероятный ответ ... Я с нетерпением жду продолжения по всем ссылкам, которые вы предоставили. Один вопрос, который у меня остался, касается техники. Есть ли в машинном обучении аналог чего-то вроде инструментальных переменных для данных наблюдений? Кроме того - в случае рандомизации переменной, что будет альтернативой машинного обучения по сравнению с простым t-тестом различий между процедурами? Нужна ли техника ответа машинного обучения, какое преимущество это даст?
d_a_c321
@ dchandler, мой опыт работы с инструментальными переменными очень ограничен, но, опять же, я не вижу формальной причины для различия между машинным обучением и статистической методологией для подбора моделей , поэтому вы могли бы очень хорошо включить инструментальные переменные, если это служит цели. Я считаю, что наиболее интересной проблемой, связанной с причинностью, является эффект вмешательства. Это в основном вопрос прогнозов, но, возможно, не в распределении данных наблюдений.
NRH
@dchandler, по второму вопросу, я бы не стал рассматривать это как вопрос взаимно-однозначного отношения методов в машинном обучении и методов в статистике. -test вычисляется для ответа на вопрос: Есть ли в данных , чтобы отвергнуть нулевую гипотезу о том , что средства равны? Мы можем долго обсуждать, интересно ли это, и даже дают ли критерий и соответствующее значение хороший ответ, но я не думаю, что есть смысл спрашивать, есть ли альтернатива машинного обучения. ttp
NRH
Однако после проведения вмешательства какую статистику будет использовать машинное обучение? Базовая статистика экспериментального дизайна, как правило, просто до мозга костей (сравнение средних значений с помощью t-критерия). В эконометрике, с большим допущением, вы можете попытаться восстановить различные квантили или распределение эффектов лечения. Что будет делать анализ машинного обучения помимо сравнения средств?
d_a_c321
То, что просто до мозга костей, - это что-то вычислить, а не так-то просто - оправдать необходимые предположения. Подход TMLE, предложенный Марком, основан на оценке размеров эффекта (параметры, представляющие интерес, в общем случае, могут быть эффекты вмешательства, может быть эффекты наблюдения) и обеспечивают честные доверительные интервалы с менее строгими предположениями модели. Гибкая подгонка модели с выбором модели на основе перекрестной проверки используется, чтобы избежать ограничительной и неправильной параметрической модели.
NRH
10

Существует (довольно ограниченный) набор статистических инструментов для так называемого «причинного вывода». Они предназначены для фактической оценки причинно-следственных связей и доказано, что делают это правильно. Отлично, но не для смирения сердца (или мозга, если на то пошло).

Кроме того, во многих случаях способность подразумевать причинно-следственную связь является гораздо более важным следствием вашего дизайна, чем имеющихся методов: если вы контролируете «все» переменные в своем эксперименте и видите, что что-то происходит каждый раз, когда вы ( только) измените одну переменную, разумно назвать то, что происходит, «следствием» того, что вы меняете (к сожалению, в реальных исследованиях эти крайние случаи на самом деле случаются редко). Другое интуитивное, но здравое обоснование основано на времени: если вы случайно (но контролируемым образом) меняете переменную, а другая меняет на следующий день, причинность также не за горами.

Весь мой второй абзац по существу работает независимо от того, какие методы вы используете, чтобы найти, какие переменные изменились в каких условиях, поэтому, по крайней мере, теоретически нет причин, по которым машинное обучение (ML) будет хуже, чем методы, основанные на статистике.

Отказ от ответственности : Высоко субъективный параграф

Тем не менее, по моему опыту, слишком часто методы ML просто теряются в большом количестве данных без учета того, откуда эти данные получены или как они были собраны (т.е. без учета дизайна). В этих случаях результат очень часто поднимается, но будет очень сложно сказать что-то полезное о причинности. Это будетбыть точно таким же, когда какой-то статистически обоснованный метод выполняется на тех же данных. Тем не менее, люди с сильным статистическим опытом обучены критически относиться к этим вопросам, и, если все пойдет хорошо, они избежат этих ловушек. Возможно, это просто образ мышления ранних (но небрежных) последователей методов ML (обычно не разработчиков новых методов, а тех, кто стремится «доказать» некоторые результаты с ними в своей сфере интересов), которые дали ML плохую репутацию в этом вопросе. Счет. (обратите внимание, что я не говорю, что статистика лучше, чем ML, или что все люди, делающие ML, небрежны, а те, кто занимается статистикой, - нет)

Ник Сабби
источник
Большое спасибо за ответ. Мне очень нравится ваше объяснение того, как причинно-следственная связь является скорее следствием дизайна, чем методов. Однако один вопрос, который у меня есть, касается техники: есть ли что-то вроде инструментальных переменных для машинного обучения? Кроме того - в случае рандомизации переменной, что будет альтернативой машинного обучения по сравнению с простым t-тестом различий между процедурами?
d_a_c321
9

Я считаю, что модели, используемые в экономике и других социальных науках, полезны лишь постольку, поскольку они имеют прогностическую силу в реальном мире - модель, которая не предсказывает реальный мир, - это просто умная математика. Одно из моих любимых высказываний коллегам - «данные - это король».

Мне кажется, что ваш вопрос вызывает две критики прогнозного подхода. Во-первых, вы указываете, что модели, созданные с помощью методов машинного обучения, могут не интерпретироваться . Во-вторых, вы предполагаете, что методы, используемые в социальных науках, более полезны для выявления причинно-следственных связей, чем машинное обучение.

Чтобы обратиться к первому пункту, я бы предложил следующий контраргумент. Сегодняшняя увлечение машинным обучением отдает предпочтение методам (таким как SVM и NN), которые непросто понять непрофессионалу. Это не значит, что все техники машинного обучения обладают этим свойством. Например, почтенное дерево решений C4.5 по-прежнему широко используется через 20 лет после достижения последней стадии его разработки и выдает на выходе ряд правил классификации. Я бы сказал, что такие правила лучше поддаются интерпретации, чем такие понятия, как отношение логарифмов, но это субъективное утверждение. В любом случае, такие модели являются интерпретированы.

Что касается второго пункта, я признаю, что если вы обучите модель машинного обучения в одной среде и протестируете ее в другой, она, скорее всего, потерпит неудачу, однако нет никаких оснований предполагать, что априори это не так для более обычная модель: если вы строите свою модель с одним набором допущений, а затем оцениваете ее по другому, вы получите плохие результаты. Кооптировать фразу из компьютерного программирования: «мусор в мусоре» одинаково хорошо подходит как для машинного обучения, так и для разработанных моделей.

Джон Дусетт
источник
9

Нет. Причинный вывод является активной областью исследований в области машинного обучения, например, см. Материалы этого семинара и этого . Однако я хотел бы отметить, что, даже если причинный вывод или интерпретация модели является вашим основным интересом, все равно будет хорошей идеей попробовать параллельный непрозрачный чисто прогнозирующий подход, чтобы вы знали, есть ли существенное снижение производительности, связанное с настаиванием на интерпретируемая модель.

Дикран Сумчатый
источник
1
interopretable? Возможно, вы имеете в виду интерпретируемый?
Фахим Митха
4

Я не буду повторять очень хорошие замечания, уже высказанные в других ответах, но хотел бы добавить несколько иную точку зрения. То, что я здесь говорю, является несколько философским, не обязательно полученным из профессионального опыта, но из смешанного фона в области физических наук, теории сложных систем и машинного обучения (и, я должен признать, в значительной степени студенческой статистики).

Одно существенное различие между машинным обучением и классическими статистическими подходами (о которых я знаю) заключается в наборе допущений, которые сделаны. В классической статистике многие предположения о базовых процессах и распределениях фиксированы и, как правило, принимаются как должное. Однако в машинном обучении эти допущения явно выбраны для каждой модели, что приводит к гораздо более широкому набору возможностей и, возможно, к большей осведомленности о сделанных допущениях.

Мы все больше видим, что системы в окружающем нас мире ведут себя сложным, нелинейным образом и что многие процессы не подчиняются предположениям о нормальности и т. Д., Которые обычно присутствуют в классической статистике. Я бы сказал, что из-за гибкости и разнообразия модельных допущений подходы машинного обучения часто приводят к более надежной модели в таких случаях.

Существуют строгие модельные допущения, встроенные в такие фразы, как «величина эффекта», «причинно-следственная связь» и «степень влияния одной переменной на результат». В сложной системе (такой как экономика) эти допущения будут действительны только в пределах определенного окна возможных состояний системы. С некоторыми наблюдаемыми и процессами это окно может быть большим, что приводит к относительно устойчивым моделям. С другими он может быть маленьким или даже пустым. Возможно, самой большой опасностью является середина: может показаться, что модель работает, но когда система переключается, происходит внезапный и неожиданный сбой.

Машинное обучение не панацея. Скорее, я рассматриваю это как поиск новых способов получения смысла из наших наблюдений, поиска новых парадигм, которые необходимы, если мы хотим эффективно справляться со сложностью, которую мы начинаем ощущать в окружающем нас мире.

drevicko
источник