Итог : чем больше я узнаю о статистике, тем меньше я доверяю опубликованным работам в своей области; Я просто считаю, что исследователи недостаточно хорошо справляются со своей статистикой.
Я мирянин, так сказать. Я обучаюсь биологии, но у меня нет формального образования в области статистики или математики. Я наслаждаюсь R и часто стараюсь читать (и понимать ...) некоторые теоретические основы методов, которые я применяю при проведении исследований. Меня не удивит, если большинство людей, проводящих сегодня анализ, на самом деле не обучены формально. Я опубликовал около 20 оригинальных статей, некоторые из которых были приняты признанными журналами, и статистики часто участвовали в процессе рецензирования. Мои анализы обычно включают анализ выживаемости, линейную регрессию, логистическую регрессию, смешанные модели. Никогда еще рецензент не спрашивал о допущениях, подгонке или оценке модели.
Таким образом, я никогда особо не беспокоился о допущениях, подгонке и оценке модели. Я начинаю с гипотезы, выполняю регрессию и затем представляю результаты. В некоторых случаях я пытался оценить эти вещи, но всегда получал « хорошо, что он не соответствует всем предположениям, но я доверяю результатам (« знание предмета »), и они правдоподобны, так что все в порядке » и при консультации со статистиком они, казалось, всегда соглашались.
Теперь я разговаривал с другими статистиками и не статистиками (химиками, врачами и биологами), которые проводят анализы самостоятельно; кажется, что люди не слишком беспокоятся обо всех этих предположениях и формальных оценках. Но здесь, в резюме, есть множество людей, спрашивающих об остатках, подгонке модели, способах ее оценки, собственных значениях, векторах, и этот список можно продолжить. Позвольте мне выразиться так, когда lme4 предупреждает о больших собственных значениях, я действительно сомневаюсь, что многие из его пользователей заботятся об этом ...
Это стоит дополнительных усилий? Маловероятно ли, что большинство всех опубликованных результатов не соответствуют этим предположениям и, возможно, даже не оценивали их? Вероятно, это растущая проблема, поскольку базы данных растут с каждым днем, и существует мнение, что чем больше данные, тем менее важны предположения и оценки.
Я могу быть абсолютно неправ, но вот как я это воспринял.
Обновление: цитата позаимствована у StasK (ниже): http://www.nature.com/news/science-joins-push-to-screen-statistics-in-papers-1.15509
источник
Ответы:
Я обучаюсь статистике, а не биологу или врачу. Но я провожу немало медицинских исследований (работаю с биологами и врачами), так как в рамках своих исследований я узнал довольно много о лечении нескольких различных заболеваний. Означает ли это, что если мой друг спросит меня о заболевании, которое я исследовал, я могу просто написать ему рецепт на лекарство, которое, как я знаю, обычно используется для этого конкретного заболевания? Если бы я сделал это (я этого не делаю), то во многих случаях это, вероятно, сработало бы нормально (поскольку врач просто прописал бы одно и то же лекарство), но всегда есть вероятность, что у них аллергия / лекарство Взаимодействие / другое, о котором доктор хотел бы спросить, а я - нет, и в итоге я причиняю гораздо больше вреда, чем пользы.
Если вы делаете статистику, не понимая, что вы предполагаете и что может пойти не так (или консультируясь со статистиком по пути, который будет искать эти вещи), то вы практикуете статистическую халатность. В большинстве случаев, вероятно, все будет в порядке, но как насчет случая, когда важное предположение не выполняется, а вы просто игнорируете его?
Я работаю с некоторыми врачами, которые обладают достаточной статистической компетентностью и могут многое сделать из своего собственного анализа, но они все равно проведут его мимо меня. Часто я подтверждаю, что они сделали правильную вещь и что они могут сделать анализ самостоятельно (и они, как правило, благодарны за подтверждение), но иногда они будут делать что-то более сложное, и когда я упоминаю лучший подход, они обычно переворачивают анализ для меня или моей команды, или, по крайней мере, привести меня к более активной роли.
Итак, мой ответ на ваш заглавный вопрос: «Нет», мы не преувеличиваем, мы должны подчеркнуть некоторые вещи, чтобы неспециалисты с большей вероятностью хотя бы дважды проверили свои процедуры / результаты со статистиком.
редактировать
Это дополнение на основе комментария Адама ниже (будет немного длиннее для другого комментария).
Адам, спасибо за ваш комментарий. Краткий ответ: «Я не знаю». Я думаю, что был достигнут прогресс в улучшении статистического качества статей, но все изменилось настолько быстро, что потребуется много времени, чтобы наверстать упущенное и гарантировать качество. Часть решения сосредоточена на предположениях и последствиях нарушений в курсах по вводной статистике. Это чаще случается, когда классы преподаются статистиками, но должно происходить во всех классах.
В некоторых журналах дела идут лучше, но я бы хотел, чтобы конкретный статистический рецензент стал стандартом. Несколько лет назад была статья (извините, справка не нужна, но это было либо в JAMA, либо в Медицинском журнале Новой Англии), которая показала более высокую вероятность публикации (хотя и не такая большая разница, как должна) быть) в JAMA или NEJM, если одним из соавторов был биостатист или эпидемиолог.
Недавно появилась интересная статья: http://www.nature.com/news/statistics-p-values-are-just-the-tip-of-the-iceberg-1.17412, в которой обсуждаются некоторые из тех же проблем.
источник
Ну, да, предположения имеют значение - если бы они не имели значения, нам бы не пришлось их делать, не так ли?
Вопрос в том, насколько они важны - это зависит от процедур и предположений, а также от того, что вы хотите заявить о своих результатах (а также о том, насколько толерантна ваша аудитория приблизительно, даже неточна, в таких утверждениях).
Итак, для примера ситуации, когда предположение является критическим, рассмотрим допущение нормальности в F-тесте дисперсий; даже довольно скромные изменения в распределении могут оказать довольно существенное влияние на свойства (реальный уровень значимости и мощность) процедуры. Если вы утверждаете, что проводите тест на уровне 5%, когда он действительно находится на уровне 28%, вы в некотором смысле делаете то же, что и ложь о том, как вы проводили свои эксперименты. Если вы не считаете, что такие статистические проблемы важны, приводите аргументы, которые не основаны на них. С другой стороны, если вы хотите использовать статистическую информацию в качестве поддержки, вы не можете исказить эту поддержку.
В других случаях конкретные предположения могут быть гораздо менее важными. Если вы оцениваете коэффициент в линейной регрессии, и вам все равно, статистически ли он значим, и вам не важна эффективность, ну, это не обязательно имеет значение, если выполнено предположение о гомоскедастичности. Но если вы хотите сказать, что это статистически значимо, или показать доверительный интервал, да, это, безусловно, может иметь значение.
источник
Хотя Glen_b дал отличный ответ , я хотел бы добавить к этому пару центов.
Одно из соображений заключается в том, действительно ли вы хотите получить научную правду, которая потребует оттачивания ваших результатов и выяснения всех деталей того, оправдан ли ваш подход, по сравнению с публикацией в «ах, ну, в любом случае, никто не проверяет эти собственные значения в моей дисциплине» Режим. Другими словами, вам нужно спросить свою внутреннюю профессиональную совесть, выполняете ли вы лучшую работу, какую только можете. Ссылка на низкую статистическую грамотность и слабую статистическую практику в вашей дисциплине не дает убедительного аргумента. Рецензенты часто в лучшем случае оказываются бесполезными, если они исходят из той же дисциплины, что и эти слабые стандарты, хотя в некоторых ведущих организациях есть явные инициативы по привлечению статистического опыта в процесс рецензирования.
Но даже если вы циничный ломтик салями, «публикуйте или погибайте», другое соображение - это в основном безопасность вашей исследовательской репутации. Если ваша модель выходит из строя, и вы этого не знаете, вы подвергаете себя риску опровержения со стороны тех, кто может прийти и загнать топор в трещины проверки модели с помощью более совершенных инструментов. Конечно, вероятность этого мала, поскольку научное сообщество, несмотря на номинальные философские требования достоверности и воспроизводимости, редко пытается воспроизвести чужое исследование. (Я принимал участие в написании нескольких статей, которые в основном начинались с: «Боже мой, они действительнонапишите что? ", и предложили критику и уточнение рецензируемого опубликованного полустатистического подхода.) Однако неудачи статистического анализа, когда они выставляются , часто вызывают большие и неприятные всплески.
источник
Характер нарушений допущений может стать важной подсказкой для будущих исследований. Например, нарушение предположения о пропорциональных опасностях в анализе выживаемости по Коксу может быть связано с переменной, оказывающей большое влияние на кратковременную выживаемость, но незначительной в долгосрочной перспективе. Это тип неожиданной, но потенциально важной информации, которую вы можете получить, проверив обоснованность ваших предположений в статистическом тесте.
Таким образом, вы сами, а не только литература, оказываете медвежью услугу, если не проверяете основополагающие предположения. Поскольку высококачественные журналы начинают нуждаться в более сложном статистическом обзоре, вам придется чаще это делать. Вы не хотите находиться в положении, когда тест, требуемый статистическим рецензентом, подрывает то, что, по вашему мнению, было ключевым моментом вашей статьи.
источник
Я отвечу с промежуточной точки зрения. Я не статистика, я химик. Тем не менее, я провел последние 10 лет, специализируясь на хемометрии = статистический анализ данных для химических данных.
Это, вероятно, так.
Укороченная версия:
Теперь о предположениях. ИМХО ситуация здесь слишком разнородна, чтобы иметь дело с ней в одном утверждении. Понимание того, для чего именно нужно допущение и каким образом оно может быть нарушено приложением, необходимо для того, чтобы судить, является ли нарушение безвредным или критическим. И для этого нужны как статистика, так и знания приложений.
Однако, как практик, сталкивающийся с недостижимыми предположениями, мне нужно еще кое-что: я хотел бы иметь «вторую линию защиты», которая, например, позволяет мне судить, действительно ли нарушение вызывает проблемы или оно безвредно.
Длинная версия:
С практической точки зрения некоторые типичные предположения почти никогда не встречаются. Иногда я могу сформулировать разумные предположения о данных, но часто проблемы становятся настолько сложными со статистической точки зрения, что решения еще не известны. К настоящему времени я считаю, что занятие наукой означает, что вы выйдете за границы того, что известно, вероятно, не только в вашей конкретной дисциплине, но, возможно, и в других дисциплинах (здесь: прикладная статистика).
Существуют и другие ситуации, когда определенные нарушения, как известно, обычно безвредны, например, требуется многомерная нормальность с равной ковариацией для LDA, чтобы показать, что LDA является оптимальной, но хорошо известно, что проекция следует эвристике, которая часто работает хорошо, даже если предположение не выполнено. И какие нарушения могут вызвать проблемы: также известно, что тяжелые хвосты в распределении приводят к проблемам с LDA на практике.
К сожалению, такое знание редко превращается в сжатое написание статьи, поэтому читатель не имеет ни малейшего понятия, решили ли авторы для своей модели, тщательно продумав свойства приложения, а также модель, или же они просто выбрали какую-либо модель они сталкивались.
Иногда развиваются практические подходы (эвристика), которые оказываются очень полезными с практической точки зрения, даже если для понимания их статистических свойств требуются десятилетия (я имею в виду PLS).
Другая вещь, которая случается (и должна случиться чаще), состоит в том, что возможные последствия нарушения могут отслеживаться (измеряться), что позволяет решить, есть ли проблема или нет. Для приложения, может быть, мне все равно, будет ли моя модель оптимальной, если она достаточно хороша.
В хемометрике мы уделяем большое внимание прогнозированию. И это дает очень хороший выход, если предположения моделирования не выполнены: независимо от этих предположений, мы можем измерить, работает ли модель хорошо. С точки зрения практикующего, я бы сказал, что вы можете делать все, что вам нравится во время моделирования, если вы делаете это и сообщаете о честной проверке состояния.
Для хемометрического анализа спектроскопических данных мы находимся в точке, где мы не смотрим на остатки, потому что мы знаем, что модели легко подходят. Вместо этого мы смотрим на производительность тестовых данных (и, возможно, разницу с тренировочными данными прогнозируют производительность).
Существуют и другие ситуации, когда мы не можем точно предсказать, какое нарушение какого допущения приводит к поломке модели, но мы можем довольно непосредственно измерить последствия серьезных нарушений допущения.
Следующий пример: данные исследования, с которыми я обычно имею дело, на порядки ниже размеров выборки, которые рекомендуются статистическими эмпирическими правилами для случаев на вариацию (чтобы гарантировать стабильные оценки). Но статистические книги обычно не заботятся о том, что делать на практике, если это предположение не может быть выполнено. Ни как измерить, действительно ли у вас проблемы в этом отношении. Но: такие вопросы рассматриваются в более прикладных дисциплинах. Оказывается, часто довольно просто непосредственно измерить стабильность модели или, по крайней мере, ваши прогнозы нестабильны (читайте здесь в CV о проверке повторной выборки и стабильности модели). И есть способы стабилизировать нестабильные модели (например, мешки).
В качестве примера «2-й линии защиты» рассмотрим валидацию повторной выборки. Обычным и самым сильным предположением является то, что все суррогатные модели эквивалентны модели, обученной на всем наборе данных. Если это предположение нарушается, мы получаем общеизвестный пессимистический уклон. 2-я строка заключается в том, что, по крайней мере, суррогатные модели эквивалентны друг другу, поэтому мы можем объединить результаты испытаний.
И последнее, но не менее важное: я бы хотел призвать «ученых-заказчиков» и статистиков больше общаться друг с другом . Статистический анализ данных IMHO - это не то, что можно сделать односторонним способом. В какой-то момент каждая сторона должна будет приобрести некоторые знания другой стороны. Я иногда помогаю «переводить» между статистиками, химиками и биологами. Статистик может знать, что модель нуждается в регуляризации. Но чтобы выбирать, скажем, между LASSO и горным хребтом, им нужно знать свойства данных, которые может знать только химик, физик или биолог.
источник
Учитывая, что резюме заполнено статистиками и людьми, которые интересуются, если не компетентны, статистикой, я не удивляюсь всем ответам, подчеркивающим необходимость понимания предположений. Я также согласен с этими ответами в принципе.
Однако, принимая во внимание давление на публикацию и низкий стандарт статистической достоверности, я должен сказать, что эти ответы довольно наивны. Мы можем сказать людям, что они должны делать весь день (т.е. проверять ваши предположения), но что они будут делать, зависит исключительно от институциональных стимулов. Сам ОП утверждает, что ему удается опубликовать 20 статей без понимания предположения модели. Учитывая мой собственный опыт, мне не трудно в это поверить.
Поэтому я хочу сыграть адвоката дьявола, прямо отвечая на вопрос ОП. Это ни в коем случае не ответ, который продвигает «хорошую практику», но это тот, который отражает то, как все практикуется с намеком на сатиру.
Нет, если целью является публикация, не стоит тратить все время на понимание модели. Просто следуйте распространенной модели в литературе. Таким образом, 1) ваша статья будет легче проходить рецензирование, и 2) риск подвергнуться «статистической некомпетентности» невелик, потому что разоблачение вас означает разоблачение всего поля, включая многих пожилых людей.
Да, скорее всего, большинство опубликованных результатов не соответствуют действительности. Чем больше я участвую в реальных исследованиях, тем больше я думаю, что это вероятно.
источник
Короткий ответ - нет." Статистические методы были разработаны в соответствии с наборами допущений, которые должны быть выполнены, чтобы результаты были действительными. Таким образом, само собой разумеется, что если предположения не были соблюдены, результаты могут быть недействительными. Конечно, некоторые оценки все еще могут быть надежными, несмотря на нарушения типовых допущений. Например, полиномиальный логит, по-видимому, работает хорошо, несмотря на нарушения допущения IIA (см. Диссертацию Кропко [2011] в ссылке ниже).
Как ученые, мы обязаны гарантировать, что результаты, которые мы представляем, действительны, даже если люди на местах не заботятся о том, были ли выполнены предположения. Это потому, что наука построена на предположении, что ученые будут поступать правильно в своем стремлении к фактам. Мы доверяем нашим коллегам проверять их работу перед отправкой в журналы. Мы надеемся, что судьи компетентно рассмотрят рукопись до ее публикации. Мы предполагаемчто и исследователи, и рецензенты знают, что они делают, поэтому можно доверять результатам работ, опубликованных в рецензируемых журналах. Мы знаем, что это не всегда верно в реальном мире, основываясь на огромном количестве статей в литературе, где вы в конечном итоге качаете головой и закатываете глаза на явно избранные результаты в респектабельных журналах (« Джама опубликовал эту статью ?! «).
Поэтому нет, важность нельзя переоценить, тем более что люди доверяют вам - эксперту - чтобы вы проявили должную осмотрительность. Самое меньшее, что вы можете сделать, - это рассказать об этих нарушениях в разделе «Ограничения» своей статьи, чтобы помочь людям интерпретировать достоверность ваших результатов.
Ссылка
Кропко, Дж. 2011. Новые подходы к дискретному выбору и методология поперечного сечения временных рядов для политических исследований (диссертация). UNC-Чапел-Хилл, Чапел-Хилл, Северная Каролина
источник
Если вам нужна очень продвинутая статистика, это скорее всего потому, что ваши данные - беспорядок, что имеет место в большинстве социальных наук, не говоря уже о психологии. В тех областях, где у вас есть хорошие данные, вам нужно очень мало статистики. Физика - очень хороший пример.
Посмотрите на эту цитату из Галилея о его знаменитом эксперименте по гравитационному ускорению:
Обратите внимание на выделенный мной текст. Это то, что хорошие данные. Это происходит из хорошо спланированного эксперимента, основанного на хорошей теории. Вам не нужна статистика, чтобы извлечь то, что вас интересует. В то время не было ни статистики, ни компьютеров. Исход? Довольно фундаментальные отношения, которые все еще сохраняются, и могут быть проверены в домашних условиях шестиклассником.
Я украл цитату с этой удивительной страницы .
ОБНОВЛЕНИЕ: Для комментария @Silverfish, вот пример статистики в экспериментальной физике частиц. Довольно простой, а? Едва выше уровня MBA. Обратите внимание, как они любят :) Примите это, статистики!χ2
источник
Этот вопрос кажется делом профессиональной честности.
Проблема, по-видимому, заключается в том, что либо: (а) недостаточно критической оценки статистического анализа непрофессионалами, либо (б) общеизвестных случаев недостаточно для выявления статистической ошибки (например, ошибки типа 2)?
Я знаю достаточно о своей области знаний, чтобы запрашивать мнение экспертов, когда я нахожусь у границы этой экспертизы. Я видел, как люди используют такие вещи, как F-тест (и R-квадрат в Excel) без достаточных знаний.
По моему опыту, системы образования, стремясь продвигать статистику, слишком упростили инструменты и занижали риски / ограничения. Является ли это общей темой, с которой столкнулись другие и которая может объяснить ситуацию?
источник