Я подозреваю, что большинство пользователей статистических инструментов являются вспомогательными пользователями (люди, которые практически не имели формального обучения статистике). Для исследователей и других специалистов очень заманчиво применять статистические методы к своим данным просто потому, что они видели, как они «делали это раньше» в рецензируемых статьях, серой литературе, в Интернете или на конференции. Тем не менее, выполнение этого без четкого понимания требуемых допущений и ограничений статистического инструмента может привести к ошибочным результатам - ошибки часто не признаются!
Я считаю, что студенты (особенно в области социальных и естественных наук) либо не знают о статистических ловушках, либо считают эти ловушки несущественными (последние чаще всего встречаются). Хотя примеры ненадлежащего использования статистических инструментов можно найти во многих учебниках начального уровня, в Интернете или в StackExchange, мне трудно найти примеры из реальной жизни, которые привели к пагубным результатам (например, стоимость в $, влияние на жизнь и потеря карьеры) , С этой целью я ищу реальные примеры, которые подчеркивают злоупотребление статистическими методами, для которых:
- используемые статистические методы обычно охватываются курсами вводной статистики (например, логическая статистика, регрессия и т. д.)
- конечный результат повлек за собой дорогостоящие последствия (потерянные доллары, влияние на жизнь, разрушение карьеры и т. д.)
- эти данные легко доступны для использования в качестве рабочих примеров в курсе (цель состоит в том, чтобы студенты работают через реальные примеры , которые имели реальные последствия мира.)
Один нестатистический пример, который я хотел бы привести студентам при обсуждении важности правильного определения единиц в исследовательском проекте, - это «метрическая ошибка», которая привела к потере спутника стоимостью 125 миллионов долларов! Обычно это вызывает: -o фактор от студентов и, кажется, производит неизгладимое впечатление (по крайней мере, в течение их короткой академической жизни).
источник
Ответы:
Я не уверен в наличии данных, но хорошим (если это правильное слово) примером плохой статистики является исследование Гарвардской медсестры об эффективности гормонозаместительной терапии (ЗГТ) у женщин в менопаузе.
Какова общая идея? Исследование медсестер показало, что ЗГТ полезна для женщин в постменопаузе. Оказывается, этот результат возник, потому что контрольная группа сильно отличалась от группы лечения, и эти различия не были учтены в анализе. В последующих рандомизированных исследованиях ЗГТ была связана с раком, сердечным приступом, инсультом и тромбами. С соответствующими исправлениями исследование медсестер также раскрывает эти закономерности.
Я не могу найти оценки смертности в США, связанной с ЗГТ, но величина была десятки тысяч. Одна статья связывает 1000 смертей в Великобритании с HRT.
Эта статья в New York Times Magazine предоставляет хорошую статистическую информацию о проблемах, присутствующих в исследовании.
В этом выпуске Американского журнала эпидемиологии есть академическая дискуссия . В статьях сравниваются результаты исследования наблюдательных медсестер с инициативой «Здоровье женщин», основанной на рандомизированных исследованиях.
Существует также обсуждение (многими из тех же самых людей) в проблеме Биометрии См. Комментарий Freedman и Petitti в частности [ версия перед публикацией ].
источник
Прекрасный исторический пример дает опубликованная в 1933 году « Триумф посредственности в бизнесе» Горация Секрета . В то время Секрист был известным статистиком, автором учебника (помню, 1919 г.), хорошо связан с Американской статистической ассоциацией и руководителем группы статистических исследований в Северо-Западном университете. Он и его сотрудники провели предыдущее десятилетие, составляя временные ряды бизнес-данных, которые воспроизводятся и тщательно анализируются в книге. Он должен был стать шеф-поваром амбициозной статистики.
Рецензия Гарольда Хотеллинга на книгу, которая появилась в JASA позднее в том же году, указала, что Secrist просто задокументировала сотни примеров регрессии к среднему (фундаментальная тема в любом вводном курсе статистики сегодня, пункт № 1 вопроса). Секретарь возражал в опубликованном ответе. Ответ Хотеллинга на это является классическим:
[JASA v. 29 # 186, июнь 1934 г., с. 199.]
Вскоре после этого Secrist быстро сошел со статистической сцены («карьера разрушена», пункт № 2 в вопросе). Его книга все еще доступна. (Несколько лет назад я получил хорошую чистую копию, очевидно, мало читаемую через Межбиблиотечный абонемент.) Из нее вы можете извлечь любое количество примеров наборов данных (пункт № 3 вопроса).
Стивен Стиглер рассказывает эту историю в книге и газете «История статистики в 1933 году» .
источник
Мне кажется, что взятие Wired на кризис фондового рынка 2008 года может быть информативным примером. Не могу прокомментировать, верны ли его выводы или нет, но идея использования корреляций по данным, которые не являются репрезентативной выборкой, кажется чем-то, что может соответствовать вашим предложенным обстоятельствам. Это также актуально, и поэтому может заинтересовать их.
источник
Я подумал, что вы могли бы найти этот Ted Talk интересным и актуальным:
источник