Я аспирант по психологии, и, поскольку я продолжаю заниматься независимой статистикой, я все больше поражаюсь неадекватности моего формального обучения. Как личный, так и личный опыт подсказывает, что недостаток статистической строгости в обучении студентов и аспирантов довольно распространен в психологии. Таким образом, я подумал, что для таких независимых учеников, как я, было бы полезно составить список «Статистических грехов», в котором представлены статистические практики, преподаваемые аспирантам как стандартная практика, которая на самом деле либо заменяется превосходящей (более мощной, либо гибкой, либо надежными и т. д.) современными методами или признанными недействительными. В ожидании того, что в других областях также может возникнуть аналогичная ситуация, я предлагаю вики сообщества, где мы можем собрать список статистических грехов по дисциплинам.
227
Ответы:
Неспособность посмотреть (построить) данные.
источник
Большинство интерпретаций р-значений греховны! Обычное использование p-значений является ошибочным; Факт, который, на мой взгляд, ставит под сомнение стандартные подходы к преподаванию гипотез и проверок на достоверность.
Халлер и Краузе обнаружили, что статистические инструкторы почти так же, как и студенты, неверно истолковывают значения р. (Пройдите тест в их статье и посмотрите, как вы это делаете.) Стив Гудман хорошо обосновывает отказ от обычного (неправильного) использования значения p в пользу вероятностей. Бумага Хаббарда также стоит посмотреть.
Халлер и Краусс. Неверное толкование значимости: проблема, которую ученики делят со своими учителями . Методы психологического исследования (2002) том. 7 (1) с. 1-20 ( PDF )
Хаббард и Баярри. Неразбериха с показателями достоверности (p) и ошибками (α) в классическом статистическом тестировании . Американский статистик (2003), вып. 57 (3)
Хороший человек. На пути к доказательной медицинской статистике. 1: ошибка значения P Ann Intern Med (1999), вып. 130 (12) с. 995-1004 ( PDF )
Также см:
Wagenmakers, EJ. Практическое решение распространенных проблем значений p. Psychonomic Bulletin & Review, 14 (5), 779-804.
для некоторых явных случаев, когда даже номинально «правильная» интерпретация p-значения была сделана неверной из-за выборов, сделанных экспериментатором.
Обновление (2016 г.) : в 2016 г. Американская статистическая ассоциация опубликовала заявление о p-значениях, см. Здесь . В некотором смысле это был ответ на «запрет на p-значения», опубликованный журналом по психологии около года назад.
источник
Самая опасная ловушка, с которой я столкнулся при работе с прогнозирующей моделью, - это не заблаговременно зарезервировать набор тестовых данных, чтобы посвятить его «окончательной» оценке производительности.
Очень легко переоценить точность прогнозирования вашей модели, если у вас есть возможность каким-то образом использовать данные тестирования при настройке параметров, выборе предыдущего, выборе критерия остановки алгоритма обучения ...
Чтобы избежать этой проблемы, перед началом работы с новым набором данных вы должны разделить данные на:
Затем разделите ваш набор разработки на «набор разработки обучения» и «набор разработки тестирования», где вы используете набор разработки обучения для обучения различных моделей с различными параметрами и выбираете лучшие показатели в соответствии с их эффективностью в наборе разработки тестирования. Вы также можете выполнять поиск по сетке с перекрестной проверкой, но только по набору разработки. Никогда не используйте оценочный набор, пока выбор модели не сделан на 100%.
Если вы уверены в выборе модели и ее параметрах, выполните перекрестную проверку в 10 раз на наборе оценки, чтобы получить представление о «реальной» прогностической точности выбранной модели.
Кроме того, если ваши данные являются временными, лучше всего выбрать разделение разработки / оценки по временному коду: «Трудно делать прогнозы, особенно в отношении будущего».
источник
Сообщение р-значений, когда вы выполняли анализ данных (обнаружение гипотез) вместо статистики (проверка гипотез).
источник
Проверка гипотез против (например, в гауссовой настройке)H 1 : μ ≠ 0H0:μ=0 H1:μ≠0
чтобы обосновать, что в модели (то есть, смесь " не отклонена" и " верна").H 0 H 0μ=0 H0 H0
Очень хороший пример такого (очень плохого) рассуждения - это когда вы проверяете, равны ли (или нет) дисперсии двух гауссиан перед проверкой, равны ли их средние значения или нет с предположением равной дисперсии.
Другой пример возникает, когда вы проверяете нормальность (в отличие от ненормальности), чтобы оправдать нормальность. Каждый статистик сделал это в жизни? это baaad :) (и должен подтолкнуть людей к проверке устойчивости к негауссовости)
источник
Несколько ошибок, которые меня беспокоят:
Предполагая, что объективные оценки всегда лучше, чем объективные оценки.
Неправильная интерпретация / применение корреляции.
Оценка точек отчета без стандартной ошибки.
Использование методов, которые предполагают некоторый вид многомерной нормальности (например, линейный дискриминантный анализ), когда доступны более надежные, более эффективные, не / полупараметрические методы.
Использование р-значения в качестве меры силы между предиктором и ответом, а не в качестве меры, свидетельствующей о некоторой взаимосвязи.
источник
Дихотомизация переменной непрерывного предиктора для «упрощения» анализа или решения «проблемы» нелинейности в эффекте непрерывного предиктора.
источник
Не совсем отвечаю на вопрос, но есть целая книга на эту тему:
Филипп И. Хорошо, Джеймс Уильям Хардин (2003). Распространенные ошибки в статистике (и как их избежать). Wiley. ISBN 9780471460688
источник
интерпретация
Probability(data | hypothesis)
какProbability(hypothesis | data)
без применения теоремы Байеса.источник
Ритуализированная статистика.
Этот «грех» возникает, когда вы применяете то, чему вас учили, независимо от его уместности, потому что это то, как все делается. Это статистика поочередно, на один уровень выше, что позволяет машине выбирать вашу статистику для вас.
В качестве примера можно привести студентов, знакомящихся с уровнями статистики, которые пытаются привести все в соответствие со своим скромным t-тестом и инструментарием ANOVA, или каждый раз, когда кто-то говорит: «О, у меня есть категорические данные, я должен использовать X», не останавливаясь, чтобы взглянуть на данные, или рассмотрите вопрос, который задают.
Вариация этого греха включает в себя использование кода, который вы не понимаете, чтобы произвести вывод, который вы только понимаете, но знаете «пятый столбец, примерно на 8 строк ниже» или любой другой ответ, который вы должны искать.
источник
Возможно ступенчатая регрессия и другие формы тестирования после выбора модели.
Выбор независимых переменных для моделирования без какой- либо априорной гипотезы за существующими отношениями может привести к логическим ошибкам или ложным корреляциям, среди других ошибок.
Полезные ссылки (с биологической / биостатистической точки зрения):
Козак М. и Азеведо Р. (2011). Имеет ли смысл использование пошагового выбора переменных для построения моделей последовательного анализа пути? Physiologia plantarum, 141 (3), 197–200. DOI: 10.1111 / j.1399-3054.2010.01431.x
Уиттингем М.Дж., Стивенс П., Брэдбери Р.Б. и Фреклтон Р.П. (2006). Почему мы все еще используем ступенчатое моделирование в экологии и поведении? Журнал экологии животных, 75 (5), 1182–9. DOI: 10.1111 / j.1365-2656.2006.01141.x
Фрэнк Харрелл, Стратегии регрессионного моделирования , Springer 2001.
источник
Что-то удивительное, что я вижу в документах конференций и даже в журналах, - это многократное сравнение (например, двумерных корреляций), а затем сообщение о всех p <.05 как «значимых» (игнорируя правильность или неправильность этого на данный момент).
Я знаю, что вы имеете в виду по поводу выпускников факультетов психологии - я получил докторскую степень по психологии, и я все еще только учусь на самом деле. Это довольно плохо, я думаю, что психология должна относиться к количественному анализу данных более серьезно, если мы собираемся использовать его (что, очевидно, мы должны)
источник
Быть исследовательским, но притворяться подтверждающим. Это может произойти, когда кто-то модифицирует стратегию анализа (т.е. подбор модели, выбор переменной и т. Д.), Управляемый данными или ориентированный на результат, но не заявляя об этом открыто, а затем только сообщая о «наилучших» (то есть с наименьшими p-значениями) результатах, как если бы это был единственный анализ. Это также относится к тому моменту, когда Крис Били проводил многократное тестирование, и в научных отчетах высокий уровень ложноположительных результатов.
источник
То, что я вижу довольно часто и постоянно переворачиваю свое снаряжение, - это предположение о том, что статистически значимый основной эффект в одной группе и не статистически значимый основной эффект в другой группе подразумевают значительный эффект x групповое взаимодействие.
источник
Особенно в эпидемиологии и здравоохранении - использование арифметики вместо логарифмической шкалы при представлении графиков относительных показателей ассоциации (отношение рисков, отношение шансов или отношение риска).
Больше информации здесь .
источник
Корреляция подразумевает причинность, которая не так плоха, как принятие нулевой гипотезы.
источник
A and B are correlated
обычно только видят,A causes B
но не видятB causes A
... (и забывают оC
причинахA
и причинахB
)Анализ данных о скорости (точность и т. Д.) С использованием ANOVA, при этом предполагается, что данные о скорости имеют гауссову распределенную ошибку, когда они фактически распределены биномиально. Диксон (2008) предоставляет обсуждение последствий этого греха и исследование более подходящих подходов к анализу.
источник
В настоящее время популярным является построение 95-процентных доверительных интервалов вокруг необработанных значений производительности в схемах с повторными измерениями, когда они связаны только с дисперсией эффекта. Например, график времен реакции в схеме с повторными измерениями с доверительными интервалами, где член ошибки получен из MSE повторных измерений ANOVA. Эти доверительные интервалы не представляют собой ничего разумного. Они, конечно, ничего не представляют об абсолютном времени реакции. Вы можете использовать термин ошибки для создания доверительных интервалов вокруг эффекта, но это делается редко.
источник
Хотя я могу относиться ко многим из того, что говорит Майкл Лью, отказ от p-значений в пользу отношений правдоподобия по-прежнему не позволяет решить более общую проблему - проблему переоценки вероятностных результатов по сравнению с величинами эффекта, которые необходимы для придания значимости результата. Этот тип ошибок встречается во всех формах и размерах, и я считаю его самой коварной статистической ошибкой. Опираясь на Дж. Коэна, М. Оукса и других, я написал об этом статью на http://integrativestatistics.com/insidious.htm .
источник
Неспособность проверить предположение, что ошибка обычно распределена и имеет постоянную дисперсию между обработками. Эти предположения не всегда проверяются, поэтому подгонка модели наименьших квадратов, вероятно, часто используется, когда она на самом деле неуместна.
источник
Мой вводный курс психометрии в бакалавриате провел, по крайней мере, две недели, обучая, как выполнять ступенчатую регрессию. Есть ли ситуация, когда ступенчатая регрессия является хорошей идеей?
источник
У моего старого специалиста по статистике было «эмпирическое правило» для работы с выбросами: если вы видите выброс на графике рассеяния, закройте его большим пальцем :)
источник
Это может быть скорее ответом по поп-статистике, чем вы ищете, но:
Использование среднего в качестве индикатора местоположения, когда данные сильно искажены .
Это не обязательно проблема, если вы и ваша аудитория понимаете, о чем вы говорите, но обычно это не так, и медиана часто дает лучшее представление о том, что происходит.
Мой любимый пример - средняя заработная плата, которая обычно указывается как «средняя заработная плата». В зависимости от неравенства доходов / благосостояния в стране, оно может значительно отличаться от средней заработной платы, что дает гораздо лучший показатель того, где люди живут в реальной жизни. Например, в Австралии, где у нас относительно низкое неравенство, медиана на 10-15% ниже среднего . В США разница гораздо значительнее , медиана составляет менее 70% от среднего, и разрыв увеличивается.
Сообщение о «средней» (средней) заработной плате дает более четкую картину, чем это оправдано, и может также создать у многих людей ложное впечатление, что они зарабатывают не так много, как «нормальные» люди.
источник
То, что p-значение - это вероятность того, что нулевая гипотеза верна, и (1-p) - это вероятность того, что альтернативная гипотеза верна, что отказ от отклонения нулевой гипотезы означает, что альтернативная гипотеза ложна и т. Д.
источник
По аналогии с @dirkan - использование p-значений в качестве формальной меры доказательства истинности нулевой гипотезы. Он обладает некоторыми хорошими эвристическими и интуитивно хорошими функциями, но, по сути, является неполной мерой доказательств, поскольку он не ссылается на альтернативную гипотезу. В то время как данные могут быть маловероятными при нулевом значении (что приводит к небольшому значению p), данные могут быть еще более маловероятными при альтернативной гипотезе.
источник
Использование круговых диаграмм для иллюстрации относительных частот. Больше здесь .
источник
Использование статистики / вероятности в проверке гипотез для измерения «абсолютной правды». Статистика просто не может этого сделать, она может быть полезна только при выборе альтернативы , которые должны быть определены «вне» статистической парадигмы. Утверждения типа «нулевая гипотеза подтверждается статистикой» просто неверны; статистика может только сказать вам, что «нулевая гипотеза поддерживается данными по сравнению с альтернативной гипотезой». Если затем вы предполагаете, что либо нулевая гипотеза, либо альтернатива должна быть верной, вы можете сказать, что «нулевая гипотеза доказана», но это всего лишь тривиальное следствие вашего предположения, а не что-либо продемонстрированное данными.
источник
И аналогично (или почти так же, как) ответу @ ogrisel , выполняющему поиск в Grid и сообщающему только лучший результат.
источник
(С немного удачи это будет спорным.)
Использование подхода Неймана-Пирсона для статистического анализа научных экспериментов. Или, что еще хуже, используя плохо определенный гибрид Неймана-Пирсона и Фишера.
источник
Запрос и, возможно, получение Блок-схемы . Это графическая вещь, в которой вы говорите, каков уровень ваших переменных и какие отношения вы ищете, и следуйте стрелкам вниз, чтобы пройти тест по названию или по статистике по названию. , Иногда предлагается с таинственными «параметрическими» и «непараметрическими» путями.
источник