Я прочитал много научных статей об эволюции / экологии, иногда с конкретной целью увидеть, как статистика используется «в реальном мире» за пределами учебника. Обычно я воспринимаю статистику в статьях как Евангелие и использую эти документы, чтобы помочь в моем статистическом обучении. В конце концов, если для написания статьи потребовались годы, и она прошла тщательный рецензирование, то, несомненно, статистика будет надежной? Но в последние несколько дней я поставил под сомнение свое предположение и удивился, как часто статистический анализ, публикуемый в научных статьях, является подозрительным? В частности, можно ожидать, что специалисты в таких областях, как экология и эволюция, потратили меньше времени на изучение статистики и больше времени на изучение своих областей.
Как часто люди находят подозрительную статистику в научных статьях?
источник
Ответы:
Мой опыт чтения статей, которые пытаются применять статистику в самых разных областях (политология, экономика, психология, медицина, биология, финансы, актуарная наука, бухгалтерский учет, оптика, астрономия и многие, многие другие), заключается в том, что качество статистический анализ может быть где угодно в спектре от превосходного и хорошо сделанного до вопиющей бессмыслицы. Я видел хороший анализ в каждой из областей, которые я упомянул, и довольно плохо проведенный анализ почти во всех из них.
Некоторые журналы, как правило, довольно хороши, а некоторые могут больше походить на игру в дартс с завязанными глазами - большинство из них вы можете получить не слишком ужасно далеко от цели, но некоторые будут в стене, на полу и потолке. И, возможно, кот.
Я не планирую называть виновных, но скажу, что я видел академическую карьеру, основанную на неправильном использовании статистики (то есть, когда одни и те же ошибки и недоразумения повторялись на бумаге за бумагой в течение более десяти лет).
Поэтому мой совет: пусть читатель остерегается ; не верьте, что редакторы и рецензенты знают, что они делают. Со временем вы можете понять, на каких авторов обычно можно положиться, чтобы они не делали ничего слишком шокирующего, а на каких следует относиться особенно осторожно. Вы можете почувствовать, что некоторые журналы обычно имеют очень высокий стандарт для своей статистики.
Но даже обычно хороший автор может ошибиться, или рецензенты и редакторы могут не заметить ошибок, которые они обычно могут найти; Как правило, хороший журнал может публиковать ревун.
[Иногда вы даже увидите, что действительно плохие газеты получают призы или награды ... что тоже мало говорит о качестве людей, оценивающих приз.]
Я не хотел бы догадываться, какую долю «плохой» статистики я мог видеть (в разных ипостасях и на каждом этапе от определения вопроса, дизайна исследования, сбора данных, управления данными, ... вплоть до анализ и выводы), но он не настолько мал, чтобы чувствовать себя комфортно.
Я мог бы привести примеры, но я не думаю, что это правильный форум для этого. (Было бы неплохо, если бы для этого был хороший форум, но, с другой стороны, он, скорее всего, довольно быстро «политизировался бы» и вскоре не смог бы выполнить свою задачу.)
Я потратил некоторое время на просмотр PLOS ONE ... и снова, не собираясь указывать на конкретные документы. Некоторые вещи, которые я заметил: похоже, что большая часть статей содержит статистику, вероятно, более половины имеют тесты на гипотезы. Основными опасностями, по-видимому, являются многочисленные тесты, либо с высоким например 0,05 на каждый (что не является автоматически проблемой, если мы понимаем, что довольно много действительно крошечных эффектов могут оказаться значительными по случайности), или невероятно низкий уровень индивидуальной значимости, который будет иметь тенденцию давать низкую мощность. Я также видел ряд случаев, когда около полудюжины различных тестовα были, по-видимому, применены для решения точно такого же вопроса. Это кажется мне вообще плохой идеей. В целом стандарт был довольно хорошим для нескольких десятков газет, но в прошлом я видел там совершенно ужасную газету.
[Возможно, я мог бы потворствовать только одному примеру, косвенно. Этот вопрос задает вопрос о том, кто делает что-то весьма сомнительное. Это далеко не самое худшее, что я видел.]
С другой стороны, я также вижу (еще чаще) случаи, когда люди вынуждены перепрыгивать через все виды ненужных обручей, чтобы их анализ был принят; совершенно разумные вещи не принимаются, потому что есть «правильный» способ сделать что-то по мнению рецензента, редактора или руководителя, или просто в негласной культуре конкретной области.
источник
Я уважаю позицию @ Glen_b о правильном способе ответить здесь (и, конечно, не собираюсь умалять ее), но я не могу удержаться, указывая на особенно интересный пример, который находится недалеко от моего дома. Риск политизировать вещи и делать из этого вопроса плохую услугу, я рекомендую Wagenmakers, Wetzels, Boorsboom и Van Der Maas (2011) . Я процитировал это в соответствующем посте на бета-версии SE Cognitive Sciences ( Как когнитивная наука объясняет отдаленную интенциональность и функцию мозга у реципиентов? ), Где рассматривается еще один пример «дротика, поражающего кошку». Статья Wagenmakers и его коллег прямо комментирует реальный «ревун»: она была опубликована в JPSP (одном из крупнейших журналов по психологии).) пару лет назад. Они также приводят более общие аргументы в пользу байесовского анализа и того, что:
Мне, вероятно, не нужно говорить вам, что это не было похоже на проповедь хору. FWIW, есть и опровержение (как всегда, кажется, между байесовцами и частыми людьми ; ( Bem, Utts, & Johnson, 2011 ) , но я чувствую, что это точно не помешало обсуждению .
Психология как научное сообщество в последнее время переживает некоторый скачок тиражирования, отчасти из-за этого и других громких методологических недостатков. Другие комментарии здесь указывают на случаи, подобные тем, которые когда-то были известны как корреляции вуду в социальной нейробиологии (как это происходит с политически некорректным BTW? Статья была переименована; Vul, Harris, Winkielman & Pashler, 2009 ). Это также привлекло его опровержение , которое вы можете проверить, чтобы обсудить больше спорных методов.
Для еще большего образования за счет (более обезличенного) за счет (псевдо) статистики, ведущие себя плохо, см. Наш 8-й в настоящее время вопрос с наибольшим количеством голосов здесь, в резюме, с другим (по общему признанию) политически некорректным названием: « Каковы общие статистические грехи? », Его OP @MikeLawrence связывает свое вдохновение с параллельным изучением психологии и статистики. Это один из моих личных фаворитов, и его ответы очень полезны для того, чтобы самим избежать неисчислимых ловушек.
Лично я провел большую часть последних пяти месяцев здесь в основном потому, что поразительно сложно получить точную статистику по некоторым вопросам анализа данных. Честно говоря, рецензирование часто совсем не очень строго, особенно с точки зрения статистического изучения исследований в более молодых науках со сложными вопросами и множеством эпистемических осложнений. Поэтому я чувствовал необходимость взять на себя личную ответственность за полировку методов в моей собственной работе.
В то время как представления моего диссертационного исследования , у меня ощущение , как важно личная ответственность за статистическую изученность. Два исключительных психолога из моей alma mater добавили, что я совершаю один из самых основных грехов в своих интерпретациях корреляций. Я считал себя выше этого и уже несколько раз читал лекции об этом студентам, но я все еще шел туда и меня вызвали (рано, слава Богу). Я пошел туда, потому что исследования, которые я проверял и копировал, пошли туда! Таким образом, я добавил несколько разделов к своей диссертации это вызвало тех других исследователей для предположения причинности из квазиэкспериментальных продольных исследований (иногда даже из поперечных корреляций) и преждевременного игнорирования альтернативных объяснений.
Моя диссертация была принята без изменений моим комитетом, в состав которого входил еще один исключительный психометрик и вскоре ставший президентом SPSP (который публикует JPSP), но, если честно, еще раз, я не хвастаюсь этим. С тех пор мне удавалось пробить несколько кроличьих норе в моих собственных методах, несмотря на прохождение процесса внешнего обзора с совершенно хорошими рецензентами. Теперь я углубился в статистику, пытаясь подключить их к методам, более подходящим для прогнозирующего моделирования рейтингов Лайкерта, таким как SEM, IRT и непараметрический анализ (см. Регрессионное тестирование после уменьшения измерения).). Я добровольно предпочитаю потратить годы на статью, которую я, вероятно, мог бы просто опубликовать как есть ... Я думаю, что у меня даже осталось симуляционное исследование, прежде чем я смогу добросовестно продолжить работу.
Тем не менее, я подчеркиваю, что это необязательно - может быть, даже чрезмерно усердно и дорогое удовольствие в культуре «публикуй или погибай», которая часто подчеркивает количество над качеством в записях о работе на ранних этапах карьеры. Неправильное применение параметрических моделей для непрерывных данных к распределениям порядковых данных с нарушением допущений слишком распространено в моей области, равно как и неправильное толкование и искажение статистической значимости (см. Приспособление укоренившихся представлений о p-значениях ). Я мог бы полностью сойти с рук (в краткосрочной перспективе) ... и это даже не так сложно сделать лучше, чем это. Я предполагаю, что у меня есть несколько последних лет удивительных достижений в программах R, чтобы поблагодарить за это! Здесь надеемся, что времена меняются.
Ссылки
· Bem, DJ, Utts, J. & Johnson, WO (2011). Должны ли психологи изменить способ анализа своих данных? Журнал личности и социальной психологии, 101 (4), 716–719. Получено с http://deanradin.com/evidence/Bem2011.pdf .
· Вул, Е. Харрис, К., Winkielman П., & Pashler, H. (2009). Удивительно высокие корреляции в исследованиях эмоций, личности и социального познания в МРТ. Перспективы психологических наук, 4 (3), 274–290. Получено с http://www.edvul.com/pdf/VulHarrisWinkielmanPashler-PPS-2009.pdf .
·Wagenmakers, EJ, Wetzels, R., Borsboom, D. & Van der Maas, H. (2011). Почему психологи должны изменить способ анализа своих данных: случай пси. Журнал личности и социальной психологии, 100 , 426–432. Получено с http://mpdc.mae.cornell.edu/Courses/MAE714/Papers/Bem6.pdf .
источник
Я вспоминаю, как в Университете несколько раз спрашивали студентов-социологов последнего года обучения (один из них получил 1-й), как рассчитать среднее значение для своего проекта, у которого было несколько точек данных. (Таким образом, у них не было проблем с использованием программного обеспечения, просто с концепцией того, как делать математику с помощью калькулятора.)
Они просто смотрят на меня пустыми глазами, когда я спрашиваю, какой тип среднего они хотят.
Тем не менее, все они чувствовали необходимость внести некоторую статистику в свой отчет, поскольку это было сделано - я ожидаю, что все они прочитали 101 статью, в которой была статистика, не задумываясь о том, что эти статистические значения означают, если что-нибудь.
Ясно, что исследователь, который учил их в течение 3 лет, не заботился о правильности статистики достаточно, чтобы передать какое-то понимание студентам.
(В то время я был студентом-компьютерщиком. Я публикую это как ответ, так как комментариев немного.)
источник
Как печально неполный список, я нахожу статистику наиболее правильной в 1) статьях по физике, затем в 2) статистических работах и наиболее несчастной в 3) медицинских работах. Причины этого просты и связаны с полнотой требований, предъявляемых к прототипу модели в каждой области.
В работах по физике уравнения и прикладная статистика должны обращать внимание на уравновешенные единицы и чаще всего встречать причинно-следственные связи, а также проверять соответствие физическим стандартам.
В статистике 1) единицы и причинность иногда игнорируются, предположения иногда являются эвристическими, а физическое тестирование слишком часто игнорируется, но равенство (или неравенство), т. Е. Логика, как правило, сохраняется по индуктивному пути, где последние не могут исправить нефизические предположения.
В медицине, как правило, единицы игнорируются, уравнения и допущения, как правило, являются эвристическими, обычно непроверенными и часто ложными.
Естественно, что в области, подобной статистической механике, вероятнее всего, есть проверяемые допущения, чем, скажем, экономика, и это не отражается на талантах будущих авторов в этих областях. Это в большей степени связано с тем, сколько из того, что делается, действительно тестируемо, и сколько тестов было сделано исторически в каждой области.
источник
Любая статья, которая опровергает нулевую нулевую гипотезу, использует бесполезную статистику (подавляющее большинство того, что я видел). Этот процесс не может предоставить никакой информации, еще не предоставленной размером эффекта. Кроме того, это ничего не говорит нам о том, является ли значительный результат фактически причиной, теоретизированной исследователем. Это требует вдумчивого исследования данных на предмет выявления недоразумений. Чаще всего, если таковые имеются, самые сильные из этих доказательств даже выбрасываются как «выбросы».
Я не очень знаком с эволюцией / экологией, но в случае психологических и медицинских исследований я бы назвал уровень статистического понимания «сильно запутанным» и «препятствием для научного прогресса». Предполагается, что люди опровергают нечто, предсказанное их теорией, а не противоположность этому (нулевая разница / эффект).
На эту тему написаны тысячи статей. Посмотрите на гибридную полемику NHST.
Редактировать: И я имею в виду, что критерий значимости нулевой гипотезы имеет максимум нулевой научной ценности. Этот человек ударяет гвоздь по голове:
http://www.johnmyleswhite.com/notebook/2012/05/18/criticism-4-of-nhst-no-mechanism-for-producing-substantive-cumulative-knowledge/
Также: Пол Мил. 1967. Теория тестирования в психологии и физике: методологический парадокс
Изменить 3:
Если у кого-то есть аргументы в пользу полезности НХСТ, которые не требуют размышлений, « отвергните гипотезу о том, что скорость потепления одинакова, но НЕ принимайте это, чтобы подразумевать, что скорость потепления не одинакова», - это рационально Заявление, я буду рад вашим комментариям.
Изменить 4:
Что имел в виду Фишер под следующей цитатой? Означает ли это, что он подумал: «Если модель / теория A несовместима с данными, мы можем сказать, что A ложно, но ничего не говорит о том , истинна ли A»?
Карл Пирсон и Р.А. Фишер о статистических проверках: обмен 1935 года с натуры
Неужели он предполагал, что люди будут только пытаться опровергнуть правдоподобные гипотезы, а не соломенные чучела? Или я не прав?
источник