Как раздражать статистического судью?

102

Недавно я задал вопрос об общих принципах рассмотрения статистики в документах . Теперь я хотел бы спросить, что особенно раздражает вас при просмотре статьи, то есть, как лучше всего раздражать статистического судью!

Один пример за ответ, пожалуйста.

csgillespie
источник
Распространяется ли это на обоснования, полученные в ответ на первоначальный пересмотр (где были заданы незначительные и / или существенные изменения)?
ЧЛ
@chl: Да, почему бы и нет.
csgillespie

Ответы:

69

Что меня особенно раздражает , так это люди, которые явно использовали пользовательские пакеты для статистического программного обеспечения, но не цитируют их должным образом или вовсе, не давая должного авторам. Это особенно важно, когда авторы учатся в академических кругах и их работа зависит от публикации цитируемых работ . (Возможно, я должен добавить, что в моей области многие из виновников не являются статистиками.)

универсальный
источник
2
+1 для меня. Это расстраивает меня, особенно когда они ссылаются не на то, и я предоставил соответствующую информацию о том, как процитировать пакеты
Гэвин Симпсон,
3
Вопрос: когда вы цитируете пакет, вы цитируете виньетку (если она есть) или сам пакет?
Брэндон Бертельсен
7
@ Брэндон: если автор пакета заботится о вас, он даст ответ в форме, которая будет подобрана путем цитирования («some_package»)
Бен Болкер,
2
Помимо наличия контрольного документа, который не так просто сделать, самый простой способ получить цитаты - оставить хотя бы одну ошибку в вашем документе. Затем вы можете опубликовать исправление, в котором приводится оригинал статьи. Оставьте ошибку в исправлении, и вы можете опубликовать исправление, которое ссылается на исходное исправление и оригинальную статью (я видел такую ​​вещь, как студент 1-го курса). Количество цитирований растет как процесс O (N ^ 2), где N - количество исправлений.
Марк Л. Стоун
67

Боже мой, так много вещей приходит на ум ...

  • Пошаговая регрессия

  • Разделение непрерывных данных на группы

  • Предоставление p-значений, но без измерения величины эффекта

  • Описание данных с использованием среднего значения и стандартного отклонения без указания того, были ли данные более или менее симметричными и унимодальными

  • Цифры без четких надписей (являются ли эти столбцы ошибок стандартными ошибками среднего значения или стандартными отклонениями в группах или как?)

С. Коласса - Восстановить Монику
источник
5
Мне немного любопытно по поводу ступенчатой ​​регрессии. Что делает ступенчатую регрессию такой плохой? Это проблема выемки данных и множественных сравнений?
Кристофер Аден
17
Проблема состоит в том, что пошаговые процедуры полностью лишают законной силы все предположения и предварительные условия для «нормальной» логической статистики, основанной на значениях p, которые затем сильно смещаются (в сторону уменьшения до «более значимых»). В общем, ответ «да» с оговоркой, которую можно в принципе исправить для всех этих множественных сравнений (но я никогда не видел, чтобы это было сделано). Я твердо верю, что это единственная самая важная причина, почему я вижу столько исследований в области психологии, которые невозможно воспроизвести, что, в свою очередь, приводит к огромной трате ресурсов.
С. Коласса - Восстановить Монику
10
@ Стефан: Я согласен, пошаговая это плохая идея. Хотя, возможно, они еще не дошли до психологических методов, но существует множество процедур отбора, которые корректируют смещение, связанное с переоснащением, путем корректировки оценок и стандартных ошибок. Обычно это не рассматривается как проблема множественных сравнений. Они известны как методы усадки. Смотрите мой ответ в этой теме < stats.stackexchange.com/questions/499/… > и «Стратегии регрессионного моделирования» Харрелла или Тибширани на лассо.
Бретт
5
@ Бретт Мэджилл: +1 на это, и да, я знаю о усадке и лассо. Теперь все, что мне нужно, - это какой-то способ убедить психологов в том, что в этом есть смысл ... но люди борются с очень ограниченным успехом, просто чтобы психологи сообщали о доверительных интервалах, поэтому я не слишком оптимистичен в отношении того, что психологи принимают сокращение в следующем. двадцать лет.
С. Коласса - Восстановить Монику
10
Я также утверждаю, что в психологии максимизация предсказания обычно не является теоретической целью, но ступенчатая регрессия - это все о максимизации предсказания, хотя и в квази-экономном виде. Таким образом, обычно существует несоответствие между процедурой и вопросом.
Джером Энглим
41

Ирэн Страттон и ее коллега опубликовали небольшую статью о тесно связанном вопросе:

Страттон И.М., Нил А. Как убедиться, что ваша статья отклонена статистическим рецензентом . Диабетическая медицина 2005; 22 (4): 371-373.

onestop
источник
Ссылка не работает.
Оливер Анжелил
32

Код, используемый для генерации результатов моделирования, не предоставляется. После запроса кода требуется дополнительная работа, чтобы заставить его работать с сгенерированным рефери набором данных.

user603
источник
2
И он плохо отформатирован, не закомментирован и использует неразборчивые имена переменных и функций. Оооо да
naught101
30

Плагиат (теоретический или методологический). Мой первый обзор был действительно для статьи, в которой фигурировали многие не имеющие ссылки копии / вставки из устоявшейся методологической статьи, опубликованной 10 лет назад.

Только что нашел пару интересных статей на эту тему: Авторство и плагиат в науке .

В том же духе я считаю фальсификацию (данных или результатов) худшей из всех.

Чл
источник
20
Напоминает мне , что в моих ранние дни в качестве арбитра я провел далеко слишком долго рассматриваю статистический документ , который был в конце концов отвергнут конкретным журналом, но и другие судьи , и я предложили более полезное применение для метода, и я набросал алгебраическое доказательство заменить неудовлетворительное имитационное исследование в рукописи. С тех пор авторы получили две опубликованные статьи. Меня это не раздражает , но признание типа «мы благодарим рецензентов предыдущей версии статьи за полезные комментарии» было бы хорошим манерой.
OneStop
1
@onestop Да, я могу себе представить, насколько может быть неутешительной такая ситуация ...
chl
24
Несколько недель назад мне дали рецензировать статью и обнаружил, что 85% ее было опубликовано в другом журнале ... теми же авторами. Это тоже все еще считается плагиатом. За последние несколько лет я регулярно представлял куски статей - особенно рефераты, введения и выводы - веб-поисковым системам, прежде чем делать какие-либо рецензии. Я хочу быть уверен, что работа оригинальная, прежде чем я потрачу время на ее чтение.
whuber
7
+1, @whuber. Как редактор методологического журнала, я часто выполняю эту сложную работу, чтобы выяснить, заслуживает ли публикация публикации (как правило, от хорошо известных авторов; молодые авторы еще не все дошли до этой траектории), учитывая, что все они " мы сделали, они по-другому собрали восемь блоков Lego, которые составляли их предыдущие пять работ. Это заставляет меня подвергнуть сомнению вклад в предыдущих пятидесяти статьях, опубликованных этими авторами :(.
StasK
26

Когда мы просим авторов

  1. небольшой комментарий по поводу идеи, которая у нас есть (в этом смысле это не рассматривается как причина отклонения статьи, а просто чтобы быть уверенным, что авторы могут обсуждать другое POV) или
  2. неясные или противоречивые результаты,

и что авторы действительно не отвечают в случае (1) или что инкриминируемые результаты в (2) исчезают из MS.

хл
источник
7
Таинственно исчезающие результаты должны быть автоматически отклонены, имо. Я уверен, что это происходит много «за кулисами» (то есть до того, как статья будет представлена), но это явное свидетельство «выбора вишни», о котором обычные читатели газеты никогда не узнают.
Макрос
3
Еще одна причина для открытой системы рецензирования.
Fmark
24

Запутывающие значения p и размер эффекта (то есть, мой эффект велик, потому что у меня действительно очень маленькое значение p).

Немного отличается от ответа Стефана об исключении размеров эффекта, но дает р-значения. Я согласен, что вы должны дать оба (и, надеюсь, понять разницу!)

Энди W
источник
23

Не включая размеры эффекта.

П-во всех исследований (я должен отдать должное моему любимому профессору аспирантуры за эту линию).

Давать нелепое количество цифр (мужчины набрали на 3,102019 фунтов больше, чем женщины)

Не включая номера страниц (что затрудняет просмотр)

Номера номеров и таблиц

(как уже упоминалось - пошаговое и категоризация непрерывных переменных)

Питер Флом
источник
7
(+1) громко рассмеялся: «Давать нелепое количество цифр (мужчины набрали на 3,102019 фунтов больше, чем женщины)».
Макрос
19

Когда они недостаточно объясняют свой анализ и / или включают в себя простые ошибки, которые мешают понять, что на самом деле было сделано. Это часто включает использование большого количества жаргона в качестве объяснения, что является более двусмысленным, чем кажется автору, и может также использоваться неправильно.

Anony
источник
Согласитесь - пытаться понять, что автор (ы) имел в виду, прежде чем даже оценивать научное содержание, действительно раздражает.
Лоран
5
Я согласен, но я нахожу это еще более раздражающим, когда рецензент говорит вам пропустить (или перейти к добавлению материалов), что, на самом деле, очень важные детали анализа. Эта проблема делает так, что многие научные / общественно-научные работы, в которых проводится даже самый немного сложный анализ, являются довольно загадочными в этом отношении.
Макрос
16

Использование причинного языка для описания ассоциаций в данных наблюдений, когда пропущенные переменные почти наверняка представляют серьезную проблему.

Майкл Бишоп
источник
3
Я согласен с тем, что исследователи должны понимать ответственность планов наблюдательных исследований, особенно тех, которые связаны с пропущенными переменными, но я не думаю, что избегание причинно-следственных связей делает это. См. Работу Хьюберта Блалока, в частности его книгу «Причинные следствия в неэкспериментальных исследованиях», для более детальной аргументации в защиту использования причинного языка.
Энди В.
3
(+1) Это может быть моей самой большой проблемой в эпидемиологических исследованиях.
Макрос
14

Когда авторы используют один известный им статистический тест (в моей области, обычно это t-тест или ANOVA), до бесконечности, независимо от того, подходит ли он. Недавно я просмотрел статью, в которой авторы хотели сравнить дюжину различных групп лечения, поэтому они провели t-тест из двух выборок для каждой возможной пары процедур ...

Фрейя Харрисон
источник
13

Придумывание новых слов для существующих понятий или, наоборот, использование существующих терминов для обозначения чего-то другого.

Некоторые из существующих различий в терминологии давно устоялись в литературе: продольные данные в биостатистике против панельных данных в эконометрике; причинно-следственные показатели в социологии против формирующих и рефлексивных показателей в психологии; и т.д. Я до сих пор ненавижу их, но, по крайней мере, вы можете найти несколько тысяч ссылок на каждого из них в соответствующей литературе. Самым последним из них является весь ряд работ по ориентированным ациклическим графам в каузальной литературе: большая часть, если не вся, теории идентификации и оценки в них была разработана эконометристами в 1950-х годах под названием уравнений одновременности.

Термин, имеющий двойное, если не тройное значение, является «устойчивым», и различные значения часто противоречивы. «Надежные» стандартные ошибки не являются устойчивыми для дальних выбросов; кроме того, они не устойчивы к чему-либо, кроме предполагаемого отклонения от модели, и часто имеют мрачную небольшую выборку. Стандартные ошибки Уайта не устойчивы к последовательным или кластерным корреляциям; «устойчивые» стандартные ошибки в SEM не являются устойчивыми к ошибочным спецификациям структуры модели (пропущенные пути или переменные). Как и с идеей проверки значимости нулевой гипотезы, невозможно никого указать пальцем и сказать: «Вы несете ответственность за то, что запутали несколько поколений исследователей, выдумавших эту концепцию, которая на самом деле не стоит за ее именем».

оборота СтасК
источник
1
Я должен допустить совершение обоих грехов: я описываю свои данные как «имеющие иерархическую структуру: когда у меня есть уровни с отношениями 1: n (много измерений каждой выборки, несколько выборок на пациента). В какой-то момент я довольно случайно узнал, что это называется «кластеризованной» структурой данных - теперь я использую оба термина. Но я все еще не знаю, как я мог найти этот термин, я действительно искал слово для описания моей структуры данных ... И наоборот: Я использую методы, которые называются мягкой классификацией в дистанционном зондировании. Моя область (хемометрика) использует это с совершенно другим значением
cbeleites
2
Все в порядке - вы также можете добавить «многоуровневый» в свой список способов ссылки на эту структуру. «Кластеризация» обычно означает, что наблюдения, как известно, коррелируют, но никто не заботится о том, чтобы смоделировать эту корреляцию, поскольку она не представляет первостепенного интереса, и избегает методов, устойчивых к такой корреляции, таких как GEE. То, что у вас есть, это что-то вроде повторных мер МАНОВА. Существует пакет Stata, gllammкоторый рассматривает ваши данные как многоуровневые / иерархические данные, но большинство других пакетов будут рассматривать множественные измерения как переменные / столбцы, а выборки - как наблюдения / строки.
StasK
Спасибо за вклад. Ну, в настоящее время я, конечно, спрашиваю здесь, как это называется ... Это не совсем повторные измерения: обычно я измеряю количество (порядок величин: от 10 ^ 2 до 10 ^ 4) разных пятен на образце, чтобы создайте карты ложных цветов различных составляющих, и каждое измерение уже имеет 10 ^ 2 - 10 ^ 3 наблюдений (длины волн в спектре). Внутри каждого образца многие спектры сильно коррелированы, но не все: образцы не являются однородными. ...
cbeleites
1
... Ваше описание "кластеризованных" очень похоже на то, что мы делаем. Но я делаю все возможное, чтобы разделить выборки для проверки, скажем, у меня нет никакого представления об эффективном размере выборки (кроме того, что это, по крайней мере, количество задействованных реальных выборок), и иногда показываю, что все эти измерения каждой образец на самом деле помогает для модели обучения.
cbeleites
1
Интересные и сложные данные, конечно.
StasK
11

Нулевое рассмотрение отсутствующих данных.

Многие практические приложения используют данные, для которых есть по крайней мере некоторые пропущенные значения. Это, безусловно, очень верно в эпидемиологии. Недостающие данные представляют проблемы для многих статистических методов, включая линейные модели. Отсутствие данных в линейных моделях часто решается путем удаления случаев с отсутствующими данными в любых ковариатах. Это проблема, если только данные отсутствуют при условии, что данные отсутствуют полностью случайно (MCAR).

Возможно, 10 лет назад было разумно публиковать результаты линейных моделей без дальнейшего учета пропущенных. Я, конечно, виноват в этом. Тем не менее, очень хороший совет о том, как справляться с отсутствующими данными с множественным вменением, теперь широко доступен, как и статистические пакеты / модели / библиотеки / и т.д. для облегчения более подходящего анализа при более разумных допущениях в случае отсутствия.

D L Dahly
источник
1
В духе попыток получить образование, вы можете развить больше? Что вы считаете целесообразным - признать его существование или скорректировать статистический анализ перед лицом этого (например, вменение). Когда это применимо, я стараюсь включить Supp. таблицы пропущенных значений по интересующим ковариатам, но не ясно, достаточно ли этого для «рассмотрения» этим замечанием.
Энди W
8

Сообщение о эффектах, которые «приблизились к значению» (например, p <.10), а затем написали о них, как будто они достигли значимости на более строгом и приемлемом уровне. Запуск нескольких моделей структурных уравнений, которые не были вложенными, а затем о них писали так, как будто они Мы использовали хорошо разработанную аналитическую стратегию и представляли ее так, как будто никто никогда не думал об ее использовании раньше. Возможно, это квалифицируется как плагиат в n-й степени.

СтатистикаДок Консалтинг
источник
Может быть, это изобретать велосипед, а не плагиат?
геррит
7

Я рекомендую следующие две статьи:

Мартин Блэнд:
Как расстроить статистического судью
Это основано на серии выступлений Мартина Блэнда, а также на данных других статистических судей («удобная выборка с низким уровнем ответов»). Он заканчивается списком из 11 пунктов «[ч], чтобы не расстраивать статистического судью».

Стиан Лидерсен:
Статистический обзор: часто даются комментарии В
этой недавней статье (опубликованной 2014/2015) перечислены 14 наиболее распространенных комментариев автора, основанные на прим. 200 статистических обзоров научных работ (в том или ином журнале). Каждый комментарий содержит краткое объяснение проблемы и инструкции о том, как правильно проводить анализ / отчетность. Список цитируемых ссылок является сокровищницей интересных работ.

Карл Ове Хуфтхаммер
источник
Список Лидерсена интересен. Я думаю, что я не согласен с горсткой из них. , ,
StatsStudent
6

Меня больше всего (и чаще всего) раздражает «валидация», направленная на ошибку обобщения прогностических моделей, когда данные теста не являются независимыми (например, как правило, множественные измерения на пациента в данных, измерения расщепления вне начальной загрузки или перекрестной валидации не пациенты ).

Еще более раздражает то, что документы, которые дают такие ошибочные результаты перекрестной проверки, плюс независимый набор тестов, который демонстрирует чрезмерную оптимистическую предвзятость перекрестной проверки, но ни единого слова о том, что конструкция перекрестной проверки неверна ...

(Я был бы очень рад, если бы были представлены те же данные: «Мы знаем, что перекрестная проверка должна разделить пациентов, но мы застряли с программным обеспечением, которое не позволяет этого. Поэтому мы дополнительно протестировали действительно независимый набор тестируемых пациентов». «)

(Я также знаю, что начальная загрузка = повторная выборка с заменой обычно работает лучше, чем перекрестная проверка = повторная выборка без замены. Однако мы нашли для спектроскопических данных (имитированные спектры и слегка искусственная модель, но реальные спектры), которые повторяли / повторяли перекрестную проверку и выводили - у of-bootstrap была схожая общая неопределенность, у oob было больше смещения, но меньше дисперсии - для повторения, я смотрю на это с очень прагматической точки зрения: повторная перекрестная проверка по сравнению с out-of-bootstrap не имеет значения, так как многие статьи не делить по пациентам и не сообщать / обсуждать / упоминать случайную неопределенность из-за ограниченного размера тестовой выборки.)

Помимо того, что это неправильно, у этого также есть побочный эффект, что люди, которые делают надлежащую проверку, часто должны защищать, почему их результаты намного хуже, чем все эти другие результаты в литературе.

оборота кбелеитов
источник
1
Не уверен, что вы хотели сказать это, но «оптимистический» бутстрап является одним из лучших способов проверки модели, и ее обучающие и тестовые образцы перекрываются.
Фрэнк Харрелл
1
@Frank Harrell - я не уверен, что понял вашу точку зрения. Возможно, проблема в том, что в хемометрике «проверка прогнозной модели» всегда связана с эффективностью для новых, неизвестных, будущих случаев (в примере: диагностика новых пациентов). Я все время использую внешнюю загрузку или повторную / повторную перекрестную проверку. Можете ли вы объяснить, в чем заключается преимущество перекрытия наборов тестов и поездов по сравнению с разделением на уровне пациента (я предполагаю, что «перекрытие» означает измерения разделения, поэтому тестовые и тренировочные измерения могут принадлежать одному пациенту, всегда говоря о модели между пациентами )?
cbeleites
... И да, на некоторые пункты проверки модели можно ответить, не разбивая данные в отдельных тестовых и обучающих случаях (например, стабильность модели в терминах коэффициентов). Но уже стабильность модели относительно. Прогнозы должны измеряться с использованием неизвестных пациентов (неизвестно: никогда не появлялось в процессе построения модели, включая предварительную обработку, основанную на данных, которая учитывает все случаи). Фактически, для традиционного количественного определения в хемометрике валидация имеет этапы, которые требуют дополнительных независимо измеренных тестовых данных: ...
cbeleites
Хорошая практика требует неизвестного оператора прибора, и одна важная характеристика аналитического метода, которая должна быть определена во время проверки, состоит в том, как часто калибровка должна быть сделана повторно (или показывает, что дрейф инструмента незначителен в течение определенного периода времени) - некоторые авторы даже говорят о «злоупотреблении передискретизацией», которое приводит к игнорированию таких независимых тестовых наборов .
cbeleites
1
Если оборудование или методы измерения нуждаются в валидации, то требуется независимая выборка. Но распространенной ошибкой является использование разделения данных, чтобы попытаться симулировать независимую проверку. Это все еще внутренняя проверка. Чтобы ответить на вопрос @cbeleites, приведенный выше, перекрывающиеся выборки, связанные с начальной загрузкой, приведут к более точным оценкам будущей производительности модели, чем расщепление данных в большинстве наборов данных, которое можно увидеть. У меня были проблемы с разделением данных при n = 17000 и частоте событий 0,30.
Фрэнк Харрелл
4

Использование «данных» в единственном числе. Данные есть, они никогда не являются.

Питер
источник
2
Вероятно, французский статистик;)
Стефан Лоран
9
Я должен признать, что недавно я отказался от множественного использования данных после того, как цеплялся за них в течение 10 лет или около того. Я обычно пишу для нетехнической аудитории, и я волновался, что я был напыщенным. APA, похоже, до сих пор строго следит за множественностью, но, что интересно, у Королевского статистического общества, похоже, нет особого взгляда. Здесь есть интересная дискуссия: guardian.co.uk/news/datablog/2010/jul/16/data-plural-singular
Крис Били
1
Я не говорящий по-английски, но проблема с такими произведениями, как «data» или «media» в единственном числе, заключается в том, что английский заимствовал много других латинских слов, и вам нужно использовать все латинские слова согласованным образом. Что дальше? «Учебный план есть» или «Учебный план есть»? "Средние"? Если «данные» латинские, то это множественное число. Конец обсуждения. Независимо от того, сколько людей хотят игнорировать это сейчас.
Фрэн
Может быть, я неправильно использую это, но я переключаюсь между единственным и множественным числом в зависимости от контекста.
StatsStudent
Использование слова «datum» является низким и только в особых обстоятельствах, я думаю, что слово «data» является чем-то эквивалентным слову «pack» в отношении «волков». Конечно, допустимо использовать слово «стая» в единственном числе для описания множества волков. Слово «Данные» постепенно превращается в свое собственное собирательное существо ...
Роберт де Грааф
3

Для меня, безусловно, приписывание причины без какого-либо надлежащего причинного анализа или когда есть неправильный причинный вывод.

Я также ненавижу, когда нулевое внимание уделяется тому, как обрабатывались недостающие данные. Я также вижу очень много работ, в которых авторы просто выполняют полный анализ случая и не упоминают, являются ли результаты обобщенными для населения с отсутствующими значениями или как население с отсутствующими значениями может систематически отличаться от населения с полными данными.

оборота StatsStudent
источник
3

Использование Microsoft Word, а не LaTeX.

Simone
источник