При решении бизнес-задач с использованием данных обычно используется хотя бы одно ключевое предположение о том, что подкрепляющая классическая статистика недопустима. В большинстве случаев никто не удосуживается проверить эти предположения, поэтому вы никогда не узнаете.
Например, то, что многие из распространенных веб-метрик являются «длинными хвостами» (относительно нормального распределения), к настоящему моменту настолько хорошо документировано, что мы принимаем это как должное. Другой пример, онлайн-сообщества - даже в сообществах с тысячами участников, хорошо задокументировано, что на сегодняшний день самая большая доля вклада / участия во многих из этих сообществ приходится на небольшую группу «супер-участников». (Например, несколько месяцев назад, сразу после того, как API SO стал доступен в бета-версии, участник StackOverflow опубликовал краткий анализ данных, собранных им через API; его вывод - менее одного процента членов SO составляют большую часть деятельность на SO (предположительно задавая вопросы и отвечая на них), остальные 1-2% приходятся на остальных, и подавляющее большинство членов ничего не делают).
Распределения такого рода - опять-таки чаще всего правило, а не исключение - часто лучше всего моделировать с помощью функции плотности степенного закона . Для таких распределений проблематично применять даже центральную предельную теорему.
Поэтому, учитывая обилие таких популяций, которые представляют интерес для аналитиков, и учитывая, что классические модели демонстрируют явно плохие результаты на этих данных, а также учитывая, что надежные и устойчивые методы существуют уже некоторое время (я полагаю, по крайней мере, 20 лет) - почему они не используются чаще? (Мне также интересно, почему я не использую их чаще, но это не совсем вопрос для CrossValidated .)
Да я знаю , что есть учебник глава , посвященный исключительно надежная статистика и я знаю , что есть (несколько) R пакеты ( robustbase это один я знаком и использовать), и т.д.
И все же, учитывая очевидные преимущества этих методов, они часто являются лучшими инструментами для работы - почему они не используются гораздо чаще ? Разве мы не должны ожидать, что надежная (и устойчивая) статистика будет использоваться гораздо чаще (возможно, даже предположительно) по сравнению с классическими аналогами?
Единственное существенное (то есть, техническое) объяснение, которое я слышал, состоит в том, что надежные методы (также как и устойчивые методы) не обладают силой / чувствительностью классических методов. Я не знаю, правда ли это в некоторых случаях, но я знаю, что это не так во многих случаях.
Последнее слово с упреждением: да, я знаю, что у этого вопроса нет ни одного явно правильного ответа; очень мало вопросов на этом сайте. Более того, этот вопрос является подлинным вопросом; это не повод выдвигать точку зрения - у меня нет этой точки зрения, просто вопрос, на который я надеюсь получить несколько проницательных ответов.
Ответы:
Исследователи хотят малых значений p, и вы можете получить меньшие значения p, если используете методы, которые делают более строгие предположения о распределении. Другими словами, ненадежные методы позволяют вам публиковать больше статей. Конечно, многие из этих работ могут быть ложными срабатываниями, но публикация - это публикация. Это циничное объяснение, но иногда оно действительно.
источник
Таким образом, «классические модели» (какими бы они ни были - я предполагаю, что вы имеете в виду что-то вроде простых моделей, которые преподаются в учебниках и оцениваются ML), терпят неудачу в некоторых, возможно многих, наборах данных реального мира.
Если модель дает сбой, есть два основных подхода к ее исправлению:
Надежные статистические, квази-правдоподобные и GEE-подходы выбирают первый подход, меняя стратегию оценки на подход, при котором модель не подходит для всех точек данных (надежная) или не требует характеристики всех аспектов данных (QL и GEE).
Альтернатива состоит в том, чтобы попытаться создать модель, которая явно моделирует источник загрязняющих точек данных или аспекты исходной модели, которые кажутся ложными, сохраняя метод оценки таким же, как и раньше.
Некоторые интуитивно предпочитают первое (это особенно популярно в экономике), а некоторые интуитивно предпочитают второе (это особенно популярно среди байесов, которые, как правило, довольны более сложными моделями, особенно когда они понимают, что им придется использовать инструменты моделирования для вывод в любом случае).
Распределенные предположения с жирным хвостом, например, использующие отрицательный бином, а не пуассон или т, а не нормальный, принадлежат ко второй стратегии. Большинство вещей, помеченных как «надежная статистика», относятся к первой стратегии.
С практической точки зрения, получение оценок для первой стратегии для реально сложных проблем кажется довольно сложным. Не то, чтобы это была причина не делать этого, но, возможно, это объяснение того, почему это делается не очень часто.
источник
Я бы предположил, что это отставание в обучении. Большинство людей изучают статистику в колледже или университете. Если статистика не является вашей первой степенью, а вместо этого вы получили степень по математике или информатике, то вы, вероятно, охватывает только основные статистические модули:
Это означает, что когда вы сталкиваетесь с проблемой, вы пытаетесь использовать то, что знаете, для решения проблемы.
Если вы не наткнетесь на что-то другое, тогда трудно сделать что-то лучше. С помощью Google очень сложно найти что-то, если вы не знаете, как это называется!
Я думаю, что для всех техник потребуется некоторое время, прежде чем новые техники отфильтруют. Сколько времени понадобилось, чтобы стандартные тесты гипотез стали частью стандартной учебной программы по статистике?
Кстати, со степенью статистики будет все еще отставание в обучении - только короче!
источник
Любой, кто обучен статистическому анализу данных на разумном уровне, регулярно использует концепции надежной статистики. Большинство исследователей знают достаточно, чтобы искать серьезные выбросы и ошибки записи данных; Политика удаления подозрительных точек данных восходит к 19 веку с лордом Рэлеем, Г.Г. Стоуксом и другими людьми их возраста. Если вопрос:
Почему исследователи не используют более современные методы для вычисления местоположения, масштаба, регрессии и т. Д. Оценок?
затем ответ дается выше - методы были в значительной степени разработаны за последние 25 лет, скажем, 1985–2010 гг. Отставание в изучении новых методов учитывает факторы, а также инерцию, усугубляемую «мифом», что в этом нет ничего плохого слепо используя классические методы. Джон Тьюки отмечает, что неважно, какие именно надежные / устойчивые методы вы используете, важно то, что вы их используете. Совершенно правильно использовать как классические, так и надежные / устойчивые методы, и беспокоиться только тогда, когда они достаточно различаются, чтобы иметь значение. Но когда они отличаются , вы должны думать трудно .
Если вместо этого, вопрос:
Почему исследователи не останавливаются и не задают вопросы о своих данных вместо слепого применения крайне нестабильных оценок?
тогда ответ действительно сводится к обучению. Существует слишком много исследователей, которые никогда не были должным образом обучены статистике, что объясняется общей зависимостью от p-значений как основной и конечной цели «статистической значимости».
@Kwak: оценки Хубера 1970-х годов являются надежными, в классическом смысле этого слова: они противостоят выбросам. А возрастающие оценки на самом деле датируются задолго до 1980-х годов: исследование устойчивости Принстона (1971 г.) включало двухместную оценку местоположения, повторяющуюся оценку.
источник
Статистика - это инструмент для исследователей, не склонных к статистике, и им просто все равно.
Однажды я попытался помочь со статьей «Медицина», моей бывшей женой было соавторство. Я написал несколько страниц, описывающих данные, что они предлагали, почему определенные наблюдения были исключены из исследования ... и ведущий исследователь, доктор, выбросил все это и попросил кого-то вычислить p-значение, и это все, что она (и почти все, кто будет читать статью) заботились о.
источник
Я даю ответ в двух направлениях:
developpment
Во-первых, я думаю, что есть много хороших подходов в статистике (вы найдете их в R-пакетах, не обязательно где-то упомянутое о надежном), которые естественно надежны и проверены на реальных данных, и тот факт, что вы не найдете алгоритм с «надежным» упомянутое где-то не означает, что это не надежно. В любом случае, если вы думаете, что быть надежным означает быть универсальным, то вы никогда не найдете какой-либо надежной процедуры (без бесплатного обеда), вам необходимо иметь некоторые знания / опыт в отношении данных, которые вы анализируете, чтобы использовать адаптированный инструмент или создать адаптированную модель.
С другой стороны, некоторые подходы в статистике не являются надежными, поскольку они посвящены одному типу модели. Я думаю, что иногда хорошо работать в лаборатории, чтобы попытаться понять вещи. Также хорошо относиться к проблеме отдельно, чтобы понять, к какой проблеме относится наше решение ... так работает математик. Пример гауссовской модели elocant: так много критикуют, потому что гауссовское предположение никогда не выполняется, но принесло 75% идей, используемых сегодня практически в статистике. Вы действительно думаете, что все это связано с написанием бумаги, следуя правилу публикации или гибели (что мне не нравится, я согласен)?
источник
Как кто-то, кто изучил немного статистики для моего собственного исследования, я предполагаю, что причины педагогические и инерционные.
Я заметил в своей области, что порядок, в котором преподаются темы, отражает историю области. Те идеи, которые пришли первыми, учат первыми и так далее. Для людей, которые изучают статистику только для кратких инструкций, это означает, что они сначала изучат классическую статистику, а, возможно, и последнюю. Тогда, даже если они узнают больше, классические вещи с палкой лучше с их эффектами первенства.
Кроме того, все знают, что такое t-критерий из двух примеров. Менее чем кто-либо знает, что такое тест Манна-Уитни или Уилкоксона. Это означает, что мне нужно приложить немного энергии, чтобы объяснить, что такое мой надежный тест, вместо того, чтобы выполнять какой-либо классический тест. Такие условия, очевидно, приведут к тому, что меньше людей будут использовать надежные методы, чем следует.
источник
Вулдридж "Вводная эконометрика - современный подход" 2E с.261.
Если стандартные ошибки, устойчивые к гетероскедастичности, действительны чаще, чем обычные стандартные ошибки OLS, зачем нам вообще беспокоиться об обычных стандартных ошибках? ... Одна из причин, по которой они все еще используются в работе поперечного сечения, заключается в том, что, если выполняется предположение о гомоскедастичности и ошибки обычно распределяются, тогда обычная t-статистика имеет точное t-распределение независимо от размера выборки. Надежные стандартные ошибки и надежная t-статистика оправдываются только по мере увеличения размера выборки. При небольших размерах выборки надежная t-статистика может иметь распределения, которые не очень близки к t-распределению, и это может отбросить наш вывод. При больших размерах выборки мы можем всегда сообщать только о устойчивых к гетероскедастичности стандартных ошибках в приложениях поперечного сечения,
источник
Хотя они не являются взаимоисключающими, я думаю, что растущая популярность байесовской статистики является частью этого. Байесовская статистика может достигать многих тех же целей посредством априорных значений и усреднения моделей, и, как правило, на практике она немного более устойчива.
источник
Я не статистика, мой опыт в статистике довольно ограничен, я просто использую надежную статистику в компьютерном зрении / 3D реконструкции / оценке поз. Вот мой взгляд на проблему с точки зрения пользователя:
Во-первых, надежная статистика широко использовалась в технике и науке, не называя ее «надежной статистикой». Многие люди используют его интуитивно, приходя к нему в процессе адаптации конкретного метода к реальной проблеме. Например, обычно используются итеративные пересчитанные наименьшие квадраты и усеченные средние / усеченные наименьшие квадраты, которые просто не знают, что пользователь использует надежную статистику - они просто делают метод работоспособным для реальных, не синтетических данных.
Во-вторых, как «интуитивная», так и сознательная робастная статистика практически всегда используется в случае, когда результаты поддаются проверке или когда существуют четко видимые показатели ошибок. Если результаты, полученные при нормальном распределении, явно недействительны или неправильны, люди начинают возиться с весами, усечением, выборкой, читают некоторые статьи и в конечном итоге используют надежные оценки, независимо от того, знают они термин или нет. С другой стороны, если конечный результат исследования - просто некоторые графики и диаграммы, и нет ничего нечувствительного для проверки результатов, или если нормальная статистика дает достаточно хорошие результаты - люди просто не беспокоятся.
И наконец, о полезности надежной статистики как теории - хотя сама теория очень интересна, она не часто дает какие-либо практические преимущества. Большинство надежных оценок довольно тривиальны и интуитивны, часто люди изобретают их заново без каких-либо статистических знаний. Теория, такая как оценка точки разбивки, асимптотика, глубина данных, разнородность данных и т. Д., Позволяет глубже понять данные, но в большинстве случаев это просто не нужно. Одно большое исключение - пересечение надежной статистики и компрессионного зондирования, которые производят некоторые новые практические методы, такие как «скрещивание и букет»
источник
Мои знания о надежных оценках относятся исключительно к надежным стандартным ошибкам для параметров регрессии, поэтому мой комментарий будет касаться только этих. Я хотел бы предложить людям прочитать эту статью,
О так называемых «Оценщиках сэндвича Хубера» и «Обоснованных стандартных ошибках»: Фридман А. Дэвид. Американский статистик, вып. 60, № 4. (ноябрь 2006), с. 299-302. doi: 10.1198 / 000313006X152207 ( PDF версия )
Особенно меня беспокоит то, что эти подходы ошибочны, а просто отвлекают от более серьезных проблем. Таким образом, я полностью согласен с ответом Робина Жирара и его упоминанием о «бесплатном обеде».
источник
Исчисление и вероятность, необходимые для надежной статистики, (обычно) сложнее, поэтому (а) теории меньше и (б) ее сложнее понять.
источник
Я удивлен, увидев, что теорема Гаусса-Маркова не упоминается в этом длинном списке ответов, к сожалению:
В линейной модели со сферическими ошибками (которая включает в себя предположение об отсутствии выбросов через конечную дисперсию ошибок), OLS эффективен в классе линейных несмещенных оценок - существуют (безусловно, ограничивающие) условия, при которых " Вы не можете сделать лучше, чем OLS ".
Я не утверждаю, что это должно оправдывать использование OLS почти все время, но это, безусловно, способствует тому (особенно потому, что это хороший повод сосредоточиться на OLS при обучении).
источник
Я предполагаю, что надежные статистические данные никогда не являются достаточными, т.е. чтобы быть надежными, эти статистические данные пропускают некоторую информацию о распределении. И я подозреваю, что это не всегда хорошо. Другими словами, существует компромисс между надежностью и потерей информации.
источник