Рекомендации для нетехнических, но глубоких статей в статистике

24

Источником вдохновения для этого вопроса послужила известная статья покойного Лео-Бреймана « Статистическое моделирование: две культуры» (доступен в открытом доступе). Автор сравнивает то, что он видит как два разных подхода к анализу данных, затрагивая ключевые идеи классической статистики и машинного обучения. Тем не менее, статья понятна широкой аудитории - возможно, любому, кто работает с данными, независимо от того, занимались ли они статистикой на докторском уровне или только проходили вводный курс. Более того, статья стимулирует . То есть он легко порождает дискуссию (о чем свидетельствует серия живых комментариев, опубликованных в том же выпуске).

Мне любопытно узнать больше статей с этими качествами. То есть статьи, которые:

  • Коснитесь фундаментальных понятий в статистике / анализе данных
  • Может быть понято широкой аудиторией с точки зрения различий в исследовательской направленности и формальной статистической подготовке
  • Стимулируйте обсуждение, будь то через понимание или противоречие
Ричард Бордер
источник
2
Ответы до сих пор были очень интересными! Держите их в пути. Конечно, я не приму ни одного ответа согласно meta.stats.stackexchange.com/questions/409/…
Ричард Бордер
2
Там нет Royal Road для статистики.
Аксакал

Ответы:

15

Шмуэли, Галит. "Объяснить или предсказать?" Статистическая наука (2010): 289-310.

Я считаю, что это соответствует вашим трем пунктам.

В нем говорится о объяснительном и прогнозирующем моделировании (термины должны быть самоочевидными) и отмечается, что различия между ними часто не распознаются.

Это поднимает вопрос о том, что в зависимости от цели моделирования (объяснительной и прогнозирующей) могут использоваться разные стратегии построения моделей и разные модели могут быть выбраны в качестве «наилучшей» модели.

Это довольно всеобъемлющая статья и приятное чтение. Обсуждение этого резюмировано в блоге Роба Дж. Хиндмана . Связанное обсуждение Cross Validated находится в этой теме (с большим количеством голосов). Другой (без ответа) вопрос по этой же теме есть это .

Ричард Харди
источник
12

Леманн, Эрих Л. «Теории проверки гипотез Фишера, Неймана-Пирсона: одна теория или две?». Журнал Американской статистической ассоциации 88.424 (1993): 1242-1249.

Многим это неизвестно, но когда гиганты этой профессии все еще были среди нас, они не ладили друг с другом. Дискуссия об основах проверки гипотез, в частности, будь то индуктивная или дедуктивная, привела к довольно серьезным оскорблениям между Фишером, с одной стороны, и Нейманом-Пирсоном, с другой. И проблема никогда не была решена в течение их жизни.

После того, как все они прошли, Леманн пытается преодолеть разрыв и, на мой взгляд, хорошо справляется со своей задачей, показывая, что подходы являются взаимодополняющими, а не взаимоисключающими. Это то, что студенты учатся в наши дни, кстати. Вам нужно знать несколько основных вещей о проверке гипотез, но в противном случае вы можете без проблем следить за работой.

JohnK
источник
1
Спасибо за цитату. Однажды я задал вопрос о предполагаемом конфликте между подходами F и NP: stats.stackexchange.com/questions/112769 , и, несмотря на большое внимание и одобрения, которые он получил, я все еще не убежден ни в одном из существующих ответов (и не сделал принять любое). Я планирую вернуться к этой теме и почитать / поставить награду или что-то еще, но никогда не найду время; Если вы знакомы с работой Лемана, я бы посоветовал вам дать ответ.
говорит амеба: восстанови Монику
@amoeba Я читал статью Лемана снова и снова, она очень читабельна, но я не думаю, что исследовал этот вопрос так же тщательно, как вы. Поэтому, когда у вас есть время, для вас будет хорошей идеей пересмотреть его и увидеть его точку зрения. Вы найдете обсуждение проблемы Беренса-Фишера особенно показательным.
JohnK
Спасибо, что поделился. Может быть, все, что я слышал, было довольно односторонним, но все, что я слышал о сэре Роне Фишере, это то, что он был довольно неприятным человеком, если не сказать больше. У него также были некоторые сомнительные мнения о связи между употреблением табака и раком легких .
Фил
«Более легкая» альтернатива этой статье - Кристенсен, Рональд. «Тестирование Фишера, Неймана, Пирсона и Байеса». Американский статистик 59,2 (2005): 121-126. Я нашел это приятным.
Ричард Харди
9

Уилк М.Б., Гнанадесикан Р. 1968. Вероятностные методы построения графиков для анализа данных. Биометрика 55: 1-17. Jstor ссылка, если у вас есть доступ

Этому документу на момент моего написания почти 50 лет, но он все еще чувствует себя свежим и инновационным. Используя большое количество интересных и содержательных примеров, авторы объединяют и расширяют различные идеи для построения и сравнения распределений, используя структуру графиков QQ (квантиль-квантиль) и PP (вероятность-вероятность). Распределения здесь в широком смысле означают любые наборы данных или чисел (остатки, контрасты и т. Д.), Возникающие в ходе их анализа.

Конкретные версии этих графиков восходят к нескольким десятилетиям, наиболее очевидно графики с нормальной вероятностью или нормальными оценками. которые в этих терминах представляют собой графики квантиль-квантиль, а именно графики наблюдаемых квантилей по сравнению с ожидаемыми или теоретическими квантилями из выборки того же размера из нормального (гауссовского) распределения. Но авторы показывают, скромно, но уверенно, что те же идеи могут быть легко расширены - и практически с помощью современных вычислений - для изучения других видов квантилей и автоматического построения результатов.

Авторы, тогда оба работавшие в Bell Telephone Laboratories, пользовались самыми современными вычислительными возможностями, и даже многим университетам и исследовательским институтам понадобилось около десяти лет, чтобы их догнать. Даже сейчас идеи в этой статье заслуживают более широкого применения, чем они получают. Это редкий вводный текст или курс, который включает в себя любую из этих идей, кроме обычного сюжета QQ. Гистограммы и коробочные графики (каждая из которых часто очень полезна, но, тем не менее, каждая неудобна и ограничена несколькими способами) по-прежнему остаются основными продуктами при представлении графиков распределения.

На личном уровне, хотя основные идеи этой статьи были знакомы большую часть моей карьеры, мне нравится перечитывать ее каждые пару лет или около того. Одна веская причина - удовольствие от того, как авторы приводят простые, но мощные идеи к хорошим результатам на серьезных примерах. Еще одна веская причина заключается в том, что статья, которая написана кратко, без малейших следов бомбасто, намекает на расширение основных идей. Я не раз открывал повороты для основных идей, подробно изложенных в побочных подсказках и дальнейших комментариях.

Это не просто статья для тех, кто особенно интересуется статистической графикой, хотя, на мой взгляд, это должно включать всех, кто интересуется статистикой любого рода. Он продвигает способы мышления о распределениях, которые практически полезны для развития чьих-либо статистических навыков и знаний.

Ник Кокс
источник
2
Это отличный выбор. Я прочитал это несколько раз - как только я увидел имена авторов в вашем ответе, я понял, что это за статья, и сразу же захотел прочитать ее снова. Я думаю, что у меня есть копия этого где-то здесь ...
Glen_b
6

Иоаннидис, Джон П.А. «Почему большинство опубликованных результатов исследований являются ложными». PLoS Medicine (2005)

Иоаннидис, Джон П.А. «Как сделать больше опубликованных исследований правдой». PLoS Medicine (2014)

Должен читать для каждого исследователя / статистики / аналитика, который хочет избежать опасности неправильного использования и интерпретации статистики в исследованиях. Статья 2005 года была самой доступной в истории Публичной научной библиотеки и вызвала множество споров и дискуссий.

LindsayL
источник
6

Тьюки, JW (1960) Выводы против решений Технометрика 2 (4): 423-433

Эта статья основана на послеобеденном выступлении Тьюки, и есть комментарий, что «последовало значительное обсуждение», поэтому оно соответствует как минимум трети ваших точек.

Я впервые прочитал эту статью, когда получил степень доктора технических наук, и оценил ее практическое применение анализа данных.

Tony Ladson
источник
Ссылка не работает. Это работает
kjetil b halvorsen
5

Эфрон и Моррис, 1977, парадокс Штейна в статистике .

Эфрон и Моррис написали серию технических статей об оценке Джеймса-Стейна в 1970-х годах, обрамляя «парадокс» Стейна в эмпирическом байесовском контексте. Статья 1977 года является популярной, опубликованной в журнале Scientific American .

Это отличное чтение.

амеба говорит восстановить монику
источник
3

Что ж, несмотря на больший интерес к Рою Моделу среди экономистов (но я могу ошибаться), его оригинальная статья «Некоторые мысли о распределении доходов» от 1951 года - это проницательное и нетехническое обсуждение проблемы самоотбора. Эта статья послужила вдохновением для отбора моделей, разработанных Нобелевской премией Джеймса Хекмана. Хотя старый, я думаю, что он соответствует вашим трем пунктам.

Родриго Ремедио
источник