В статистическом обучении, неявно или явно, всегда предполагается, что обучающий набор состоит из наборов ввода / ответа , которые независимо взяты из одного и того же совместного распределения сP ( X , y )
и отношения, которые мы пытаемся охватить с помощью определенного алгоритма обучения. Математически это предположение iid пишет:
Я думаю, что мы все можем согласиться с тем, что это предположение редко выполняется на практике, см. Этот связанный вопрос SE и мудрые комментарии @Glen_b и @Luca.
Поэтому мой вопрос:
Где именно предположение iid становится критическим на практике?
[Контекст]
Я спрашиваю об этом, потому что могу вспомнить многие ситуации, когда такое строгое предположение не требуется для обучения определенной модели (например, методы линейной регрессии), или, по крайней мере, можно обойти предположение iid и получить надежные результаты. На самом деле результаты , как правило, останутся прежними, скорее изменится вывод, который можно сделать (например, согласованные оценки гетероскедастичности и автокорреляции HAC в линейной регрессии: идея состоит в том, чтобы повторно использовать старые добрые весовые коэффициенты регрессии OLS, но для адаптации поведение конечно-выборочного метода оценки МНК с учетом нарушения предположений Гаусса-Маркова).
Поэтому я предполагаю, что предположение iid требуется не для того, чтобы обучать конкретный алгоритм обучения, а для того, чтобы гарантировать, что такие методы, как перекрестная проверка, действительно могут быть использованы для получения надежного показателя способности модели хорошо обобщать , что это единственное, что нас интересует в конце дня в статистическом обучении, потому что оно показывает, что мы действительно можем извлечь уроки из данных. Интуитивно я действительно могу понять, что использование перекрестной проверки зависимых данных может быть оптимистичным (как показано / объяснено в этом интересном примере ).
Таким образом, для меня iid не имеет ничего общего с обучением конкретной модели, а связано с универсальностью этой модели . Похоже, это согласуется с работой, которую я нашел Huan Xu et al., См. «Робастность и обобщаемость для марковских образцов» здесь .
Ты бы согласился с этим?
[Пример]
Если это может помочь обсуждению, рассмотрите проблему использования алгоритма LASSO для выполнения интеллектуального выбора среди функций с учетом обучающих выборок с Далее мы можем предположить, что:Н ( Х я , у я ) ∀ я = 1 , . , , , Н Х я = [ X я 1 , . , , , X i P ]
- Входные данные являются зависимыми, что приводит к нарушению предположения iid (например, для каждого признака мы наблюдаем временных рядов точек, следовательно, вводя временную автокорреляцию)J=1,. , ,ПН
- ответы являются независимыми.
- Мы имеем .
Каким образом нарушение предположения iid может создать проблему в этом случае, если предположить, что мы планируем определить коэффициент штрафования LASSO используя метод перекрестной проверки (для полного набора данных) + использовать вложенную перекрестную проверку чтобы почувствовать ошибку обобщения этой стратегии обучения (мы можем оставить в стороне обсуждение, касающееся врожденных достоинств и недостатков LASSO, за исключением случаев, когда это полезно).
Ответы:
Предположение iid о парах , , часто делается в статистике и в машинном обучении. Иногда по уважительной причине, иногда из-за удобства, а иногда просто потому, что мы обычно делаем это предположение. Чтобы ответить удовлетворительно, если предположение действительно необходимо, и каковы последствия того, что это предположение не будет сделано, я легко запишу книгу (если вы когда-нибудь легко сделаете что-то подобное). Здесь я постараюсь дать краткий обзор того, что я считаю наиболее важными аспектами.(Xi,yi) i=1,…,N
Фундаментальное предположение
Давайте предположим, что мы хотим изучить вероятностную модель заданную , которую мы называем . Мы не делаем никаких предположений об этой модели в качестве приоритета, но сделаем минимальное предположение, что такая модель существует так, чтоy X p(y∣X)
В этом предположении стоит отметить, что условное распределение зависит от только через . Это то, что делает модель полезной, например, для прогнозирования. Предположение имеет место как следствие одинаково распределенной части в предположении iid, но оно слабее, потому что мы не делаем никаких предположений относительно 's.yi i Xi Xi
В дальнейшем основное внимание будет уделяться роли независимости.
моделирование
Существует два основных подхода к изучению модели заданной . Один подход известен как дискриминационное моделирование, а другой - генеративное моделирование.y X
Для обоих подходов к моделированию допущение о рабочем моделировании используется для получения или предложения методов обучения (или оценок). Это может быть достигнуто путем максимального (оштрафованного) логарифмического правдоподобия, минимизации эмпирического риска или использования байесовских методов. Даже если предположение о рабочем моделировании неверно, результирующий метод все равно может обеспечить разумное соответствие .p(y∣X)
Некоторые методы, используемые вместе с дискриминационным моделированием, такие как пакетирование (агрегация начальной загрузки), работают путем подгонки многих моделей к данным, случайно выбранным из набора данных. Без предположения iid (или взаимозаменяемости) наборы данных с передискретизацией не будут иметь совместного распределения, аналогичного распределению исходного набора данных. Любая структура зависимости стала «испорченной» в результате повторной выборки. Я не задумывался об этом глубоко, но я не понимаю, почему это обязательно должно нарушать метод как метод изучения . По крайней мере, не для методов, основанных на предположениях о независимости работы. Я счастлив, что оказался здесь неправым.p(y∣X)
Согласованность и границы ошибок
Центральный вопрос для всех методов обучения заключается в том, приводят ли они к моделям, близким к . Существует обширная теоретическая литература по статистике и машинному обучению, посвященная согласованности и границам ошибок. Основная цель этой литературы - доказать, что изученная модель близка к когда велико. Согласованность является качественной гарантией, в то время как границы ошибок обеспечивают (полу) явный количественный контроль близости и дают скорости сходимости.p(y∣X) p(y∣X) N
Все теоретические результаты основаны на предположениях о совместном распределении наблюдений в наборе данных. Часто делаются предположения о рабочем моделировании, упомянутые выше (то есть, условная независимость для дискриминационного моделирования и IDID для генеративного моделирования). Для дискриминационного моделирования границы согласованности и ошибок потребуют, чтобы выполнял определенные условия. В классической регрессии одним из таких условий является то, что для , где обозначает матрицу дизайна с строкиXi 1NXTX→Σ N→∞ X XTi , Более слабые условия могут быть достаточными для согласованности. При редком обучении другим таким условием является условие ограниченного собственного значения, см., Например, Об условиях, используемых для доказательства результатов оракула для Лассо . Предположение iid вместе с некоторыми техническими предположениями о распределении подразумевают, что некоторые такие достаточные условия выполняются с большой вероятностью, и, таким образом, предположение iid может оказаться достаточным, но не необходимым предположением для получения согласованности и границ ошибок для дискриминационного моделирования.
Допущение независимости рабочего моделирования может быть неверным для любого из подходов моделирования. В качестве приблизительного практического правила все еще можно ожидать согласованности, если данные поступают из эргодического процесса , и можно ожидать определенных границ ошибок, если процесс достаточно быстрое смешивание . Точное математическое определение этих понятий уводит нас слишком далеко от основного вопроса. Достаточно отметить, что помимо предположения iid существуют структуры зависимости, для которых можно доказать, что методы обучения работают, когда стремится к бесконечности.N
Если у нас есть более подробные знания о структуре зависимостей, мы можем заменить предположение о рабочей независимости, используемое для моделирования, моделью, которая также отражает структуру зависимости. Это часто делается для временных рядов. Лучшая рабочая модель может привести к более эффективному методу.
Модель оценки
Вместо того, чтобы доказывать, что метод обучения дает модель, близкую к имеет большую практическую ценность получить (относительную) оценку «насколько хороша изученная модель». Такие оценки оцениваются для двух или более изученных моделей, но они не дают абсолютной оценки того, насколько близка изученная модель к . Оценки оценочных баллов обычно рассчитываются эмпирически на основе разделения набора данных на обучающий и тестовый наборы данных или с использованием перекрестной проверки.p ( y ∣ X )p(y∣X) p(y∣X)
Как и в случае с пакетами, случайное разбиение набора данных «испортит» любую структуру зависимости. Однако для методов, основанных на допущениях о рабочей независимости, допущений об эргодичности, более слабых, чем iid, должно быть достаточно для того, чтобы оценочные оценки были разумными, хотя стандартные ошибки в этих оценках будут очень трудно найти.
[ Редактировать: Зависимость между переменными приведет к распределению изученной модели, которое отличается от распределения в предположении iid. Оценка, произведенная перекрестной проверкой, явно не связана с ошибкой обобщения. Если зависимость сильная, это, скорее всего, будет плохая оценка.]
Резюме (tl; dr)
Все вышесказанное предполагает, что существует фиксированная модель условной вероятности . Таким образом, не может быть тенденций или внезапных изменений в условном распределении, не охваченных .Xp(y∣X) X
При изучении модели заданным независимость играет рольXy X
Точное понимание того, какие альтернативы iid также являются достаточными, является нетривиальным и в некоторой степени предметом исследования.
источник
Что IID допущений состояния является то , что случайные величины независимы и одинаково распределены . Вы можете формально определить, что это значит, но неофициально говорится, что все переменные предоставляют одинаковый вид информации независимо друг от друга (вы также можете прочитать о связанной взаимозаменяемости ).
От абстрактных идей давайте на мгновение перейдем к конкретному примеру: в большинстве случаев ваши данные могут храниться в матрице с наблюдениями по строкам и переменными по столбцам. Если вы предполагаете, что ваши данные являются iid , то это означает, что вам нужно беспокоиться только об отношениях между столбцами и не беспокоиться об отношениях между строками. Если вы обеспокоены обоими вариантами, то смоделируете зависимость столбцов от столбцов и строк от строк, то есть всего от всего. Очень сложно сделать упрощения и построить статистическую модель всего, что зависит от всего.
Вы правильно заметили, что exchengeability позволяет нам использовать такие методы, как перекрестная проверка или начальная загрузка, но также позволяет использовать центральную предельную теорему и позволяет упростить моделирование для понимания (мышление в терминах столбцов). ).
Как вы заметили в примере LASSO, допущение независимости часто смягчается до условной независимости . Даже в таком случае нам нужны независимые и одинаково распределенные «части». Подобное, более мягкое предположение часто делается для моделей временных рядов, о которых вы упомянули, которые предполагают стационарность (так что есть зависимость, но есть и общее распределение, и ряды стабилизируются во времени - опять же, «iid» части). Это вопрос наблюдения ряда похожих вещей, которые несут ту же идею о каком-то общем явлении. Если у нас есть несколько различных и зависимых вещей, мы не можем делать никаких обобщений.
Вы должны помнить, что это только предположение, мы не строги в этом. Речь идет о достаточном количестве вещей, которые независимо друг от друга передают сходную информацию о каком-то распространенном явлении. Если бы вещи влияли друг на друга, они, очевидно, передавали бы подобную информацию, поэтому они не были бы такими полезными.
Представьте, что вы хотите узнать о способностях детей в классе, поэтому вы даете им несколько тестов. Вы можете использовать результаты теста в качестве показателя способностей детей, только если они сделали их самостоятельно, независимо друг от друга. Если бы они взаимодействовали, то вы, вероятно, измерили бы способности самого умного ребенка или самого влиятельного. Это не означает, что вы должны предполагать, что между детьми вообще не было никакого взаимодействия или зависимости, а просто то, что они сами проводили тесты. Дети также должны быть «одинаково распределены», чтобы они не могли приехать из разных стран, говорить на разных языках, быть в разном возрасте, так как это затруднит интерпретацию результатов (возможно, они не поняли вопросы и ответили случайным образом). Если вы можете предположить , что ваши данные н.о.р.тогда вы можете сосредоточиться на построении общей модели. Вы можете иметь дело с неидеальными данными, но тогда вам придется гораздо больше беспокоиться о «шуме» в ваших данных.
Помимо вашего основного вопроса вы также спрашиваете о перекрестной проверке с неидеальными данными. Хотя вы, кажется, недооцениваете важность предположения iid , в то же время вы преувеличиваете проблемы несоблюдения этого предположения, которые представляют собой перекрестную проверку. Есть несколько способов, как мы можем работать с такими данными, используя методы повторной выборки, такие как начальная загрузка или перекрестная проверка. Если вы имеете дело с временными рядами, вы не можете предполагать, что значения являются независимыми, поэтому взятие случайной доли значений было бы плохой идеей, поскольку при этом игнорировалась бы автокоррелированная структура данных. Из-за этого во временных рядах мы обычно используем перекрестную проверку на один шаг впередт.е. вы принимаете участие в серии, чтобы предсказать следующее значение (не используется для моделирования). Точно так же, если ваши данные имеют кластерную структуру , вы выбираете целые кластеры, чтобы сохранить природу данных. Так , как с моделированием, мы можем иметь дело с не- н.о.р. -sness также при выполнении перекрестной проверки, но мы должны адаптировать наши методы к природе данных , так как методы , предназначенным для н.о.р. данных не применяется в таких случаях.
источник
Единственное место, где можно смело игнорировать iid, - это курсы студенческой статистики и машинного обучения. Вы написали, что:
Это верно только в том случае, если предполагается, что функциональная форма моделей в основном правильная. Но такое предположение даже менее правдоподобно, чем iid.
Существует как минимум два способа, в которых iid является критически важным с точки зрения прикладного моделирования:
Это явное предположение в большинстве статистических выводов, как вы отмечаете в своем вопросе. В большинстве реальных моделей на каком-то этапе нам нужно использовать логический вывод для проверки спецификации, например, во время выбора переменных и сравнения моделей. Таким образом, несмотря на то, что каждая конкретная модель подходит, несмотря на нарушения iid, вы все равно можете выбрать неправильную модель.
Я считаю, что размышление о нарушениях iid - это полезный способ подумать о механизме генерации данных, который, в свою очередь, помогает мне априори подумать о соответствующей спецификации модели. Два примера:
Конечно, в почти любой модели, которую я когда-либо строил, мне не удалось свести к минимуму распределение остатков к чему-то близкому к действительно нормальному распределению. Но, тем не менее, я всегда много выигрываю, очень, очень стараясь это сделать.
источник
На мой взгляд, есть две довольно приземленные причины, по которым предположение iid важно в статистическом обучении (или статистике в целом).
Много закулисной математики зависит от этого предположения. Если вы хотите доказать, что ваш метод обучения на самом деле работает для более чем одного набора данных, предположение iid в конечном итоге сработает. Этого можно избежать, но математика становится в несколько раз сложнее.
Если вы хотите чему-то научиться на основе данных, вы должны предположить, что есть чему поучиться. Обучение невозможно, если каждая точка данных генерируется различным механизмом. Поэтому важно предположить, что что-то объединяет данный набор данных. Если мы предположим, что данные случайные, то это что-то, естественно, является распределением вероятностей, поскольку распределение вероятностей охватывает всю информацию о случайной переменной.
источник
Я хотел бы подчеркнуть, что в некоторых случаях данные не являются внутренними и статистическое обучение все еще возможно. Крайне важно иметь опознаваемую модель для совместного распределения всех наблюдений; если наблюдения выполнены, то это совместное распределение легко получить из предельного распределения отдельных наблюдений. Но в некоторых случаях совместное распределение дается напрямую, не прибегая к предельному распределению.
источник