Недавно я задал вопрос об общих принципах рассмотрения статистики в документах . Теперь я хотел бы спросить, что особенно раздражает вас при просмотре статьи, то есть, как лучше всего раздражать статистического судью!
Один пример за ответ, пожалуйста.
references
referee
csgillespie
источник
источник
Ответы:
Что меня особенно раздражает , так это люди, которые явно использовали пользовательские пакеты для статистического программного обеспечения, но не цитируют их должным образом или вовсе, не давая должного авторам. Это особенно важно, когда авторы учатся в академических кругах и их работа зависит от публикации цитируемых работ . (Возможно, я должен добавить, что в моей области многие из виновников не являются статистиками.)
источник
Боже мой, так много вещей приходит на ум ...
Пошаговая регрессия
Разделение непрерывных данных на группы
Предоставление p-значений, но без измерения величины эффекта
Описание данных с использованием среднего значения и стандартного отклонения без указания того, были ли данные более или менее симметричными и унимодальными
Цифры без четких надписей (являются ли эти столбцы ошибок стандартными ошибками среднего значения или стандартными отклонениями в группах или как?)
источник
Ирэн Страттон и ее коллега опубликовали небольшую статью о тесно связанном вопросе:
Страттон И.М., Нил А. Как убедиться, что ваша статья отклонена статистическим рецензентом . Диабетическая медицина 2005; 22 (4): 371-373.
источник
Код, используемый для генерации результатов моделирования, не предоставляется. После запроса кода требуется дополнительная работа, чтобы заставить его работать с сгенерированным рефери набором данных.
источник
Плагиат (теоретический или методологический). Мой первый обзор был действительно для статьи, в которой фигурировали многие не имеющие ссылки копии / вставки из устоявшейся методологической статьи, опубликованной 10 лет назад.
Только что нашел пару интересных статей на эту тему: Авторство и плагиат в науке .
В том же духе я считаю фальсификацию (данных или результатов) худшей из всех.
источник
Когда мы просим авторов
и что авторы действительно не отвечают в случае (1) или что инкриминируемые результаты в (2) исчезают из MS.
источник
Запутывающие значения p и размер эффекта (то есть, мой эффект велик, потому что у меня действительно очень маленькое значение p).
Немного отличается от ответа Стефана об исключении размеров эффекта, но дает р-значения. Я согласен, что вы должны дать оба (и, надеюсь, понять разницу!)
источник
Не включая размеры эффекта.
П-во всех исследований (я должен отдать должное моему любимому профессору аспирантуры за эту линию).
Давать нелепое количество цифр (мужчины набрали на 3,102019 фунтов больше, чем женщины)
Не включая номера страниц (что затрудняет просмотр)
Номера номеров и таблиц
(как уже упоминалось - пошаговое и категоризация непрерывных переменных)
источник
Когда они недостаточно объясняют свой анализ и / или включают в себя простые ошибки, которые мешают понять, что на самом деле было сделано. Это часто включает использование большого количества жаргона в качестве объяснения, что является более двусмысленным, чем кажется автору, и может также использоваться неправильно.
источник
Использование причинного языка для описания ассоциаций в данных наблюдений, когда пропущенные переменные почти наверняка представляют серьезную проблему.
источник
Когда авторы используют один известный им статистический тест (в моей области, обычно это t-тест или ANOVA), до бесконечности, независимо от того, подходит ли он. Недавно я просмотрел статью, в которой авторы хотели сравнить дюжину различных групп лечения, поэтому они провели t-тест из двух выборок для каждой возможной пары процедур ...
источник
Придумывание новых слов для существующих понятий или, наоборот, использование существующих терминов для обозначения чего-то другого.
Некоторые из существующих различий в терминологии давно устоялись в литературе: продольные данные в биостатистике против панельных данных в эконометрике; причинно-следственные показатели в социологии против формирующих и рефлексивных показателей в психологии; и т.д. Я до сих пор ненавижу их, но, по крайней мере, вы можете найти несколько тысяч ссылок на каждого из них в соответствующей литературе. Самым последним из них является весь ряд работ по ориентированным ациклическим графам в каузальной литературе: большая часть, если не вся, теории идентификации и оценки в них была разработана эконометристами в 1950-х годах под названием уравнений одновременности.
Термин, имеющий двойное, если не тройное значение, является «устойчивым», и различные значения часто противоречивы. «Надежные» стандартные ошибки не являются устойчивыми для дальних выбросов; кроме того, они не устойчивы к чему-либо, кроме предполагаемого отклонения от модели, и часто имеют мрачную небольшую выборку. Стандартные ошибки Уайта не устойчивы к последовательным или кластерным корреляциям; «устойчивые» стандартные ошибки в SEM не являются устойчивыми к ошибочным спецификациям структуры модели (пропущенные пути или переменные). Как и с идеей проверки значимости нулевой гипотезы, невозможно никого указать пальцем и сказать: «Вы несете ответственность за то, что запутали несколько поколений исследователей, выдумавших эту концепцию, которая на самом деле не стоит за ее именем».
источник
gllamm
который рассматривает ваши данные как многоуровневые / иерархические данные, но большинство других пакетов будут рассматривать множественные измерения как переменные / столбцы, а выборки - как наблюдения / строки.Нулевое рассмотрение отсутствующих данных.
Многие практические приложения используют данные, для которых есть по крайней мере некоторые пропущенные значения. Это, безусловно, очень верно в эпидемиологии. Недостающие данные представляют проблемы для многих статистических методов, включая линейные модели. Отсутствие данных в линейных моделях часто решается путем удаления случаев с отсутствующими данными в любых ковариатах. Это проблема, если только данные отсутствуют при условии, что данные отсутствуют полностью случайно (MCAR).
Возможно, 10 лет назад было разумно публиковать результаты линейных моделей без дальнейшего учета пропущенных. Я, конечно, виноват в этом. Тем не менее, очень хороший совет о том, как справляться с отсутствующими данными с множественным вменением, теперь широко доступен, как и статистические пакеты / модели / библиотеки / и т.д. для облегчения более подходящего анализа при более разумных допущениях в случае отсутствия.
источник
Сообщение о эффектах, которые «приблизились к значению» (например, p <.10), а затем написали о них, как будто они достигли значимости на более строгом и приемлемом уровне. Запуск нескольких моделей структурных уравнений, которые не были вложенными, а затем о них писали так, как будто они Мы использовали хорошо разработанную аналитическую стратегию и представляли ее так, как будто никто никогда не думал об ее использовании раньше. Возможно, это квалифицируется как плагиат в n-й степени.
источник
Я рекомендую следующие две статьи:
Мартин Блэнд:
Как расстроить статистического судью
Это основано на серии выступлений Мартина Блэнда, а также на данных других статистических судей («удобная выборка с низким уровнем ответов»). Он заканчивается списком из 11 пунктов «[ч], чтобы не расстраивать статистического судью».
Стиан Лидерсен:
Статистический обзор: часто даются комментарии В
этой недавней статье (опубликованной 2014/2015) перечислены 14 наиболее распространенных комментариев автора, основанные на прим. 200 статистических обзоров научных работ (в том или ином журнале). Каждый комментарий содержит краткое объяснение проблемы и инструкции о том, как правильно проводить анализ / отчетность. Список цитируемых ссылок является сокровищницей интересных работ.
источник
Меня больше всего (и чаще всего) раздражает «валидация», направленная на ошибку обобщения прогностических моделей, когда данные теста не являются независимыми (например, как правило, множественные измерения на пациента в данных, измерения расщепления вне начальной загрузки или перекрестной валидации не пациенты ).
Еще более раздражает то, что документы, которые дают такие ошибочные результаты перекрестной проверки, плюс независимый набор тестов, который демонстрирует чрезмерную оптимистическую предвзятость перекрестной проверки, но ни единого слова о том, что конструкция перекрестной проверки неверна ...
(Я был бы очень рад, если бы были представлены те же данные: «Мы знаем, что перекрестная проверка должна разделить пациентов, но мы застряли с программным обеспечением, которое не позволяет этого. Поэтому мы дополнительно протестировали действительно независимый набор тестируемых пациентов». «)
(Я также знаю, что начальная загрузка = повторная выборка с заменой обычно работает лучше, чем перекрестная проверка = повторная выборка без замены. Однако мы нашли для спектроскопических данных (имитированные спектры и слегка искусственная модель, но реальные спектры), которые повторяли / повторяли перекрестную проверку и выводили - у of-bootstrap была схожая общая неопределенность, у oob было больше смещения, но меньше дисперсии - для повторения, я смотрю на это с очень прагматической точки зрения: повторная перекрестная проверка по сравнению с out-of-bootstrap не имеет значения, так как многие статьи не делить по пациентам и не сообщать / обсуждать / упоминать случайную неопределенность из-за ограниченного размера тестовой выборки.)
Помимо того, что это неправильно, у этого также есть побочный эффект, что люди, которые делают надлежащую проверку, часто должны защищать, почему их результаты намного хуже, чем все эти другие результаты в литературе.
источник
Использование «данных» в единственном числе. Данные есть, они никогда не являются.
источник
Для меня, безусловно, приписывание причины без какого-либо надлежащего причинного анализа или когда есть неправильный причинный вывод.
Я также ненавижу, когда нулевое внимание уделяется тому, как обрабатывались недостающие данные. Я также вижу очень много работ, в которых авторы просто выполняют полный анализ случая и не упоминают, являются ли результаты обобщенными для населения с отсутствующими значениями или как население с отсутствующими значениями может систематически отличаться от населения с полными данными.
источник
Использование Microsoft Word, а не LaTeX.
источник