Какие интересные и хорошо написанные прикладные статистические работы?

28

Какие хорошие статьи описывают приложения статистики, которые было бы интересно и информативно читать? Просто чтобы прояснить, я на самом деле не ищу статьи, описывающие новые статистические методы (например, статью о регрессии наименьшего угла), а скорее статьи, описывающие, как решать реальные проблемы.

Например, одна статья, которая соответствует тому, что я ищу, - это климатическая статья из второго журнала Cross-Validated Journal . Я как бы ищу больше статей для статистики, а не для машинного обучения, но я думаю, что это нечеткое различие (я бы классифицировал статьи о премии Netflix как немного пограничные, а статью об анализе настроений - как нечто Я не ищу).

Я спрашиваю, потому что большинство применений статистики, которые я видел, - это либо маленькие фрагменты, которые вы видели в учебниках, либо вещи, связанные с моей собственной работой, поэтому я хотел бы немного остановиться.

раегтин
источник
4
У вас есть общие интересы, которые вы хотели бы перечислить? Это может помочь направить предложения. Приложения статистики стали довольно распространенными в удивительно широком спектре областей.
кардинал
1
@cardinal, нет, никаких особых интересов - цель состояла в том, чтобы отойти от материала, который я обычно читаю, поэтому я стараюсь не ограничивать ответы. (Возможно, это делает вопрос слишком широким, но я думаю, что я ищу личные списки лучших людей.)
raegtin
1
Классическое обязательное чтение, особенно потому, что все представленные вероятностные модели мотивированы «физическими» рассуждениями о проблеме, а не вытащены из шапки, это: Ф. Мостеллер, Д.Л. Уоллес (1963): Вывод в проблеме авторства: Сравнительное исследование методов дискриминации применительно к авторству спорных федералистских работ , J. Am. Стат. Доц. 58 (302), с. 275–309. Также по этой ссылке .
pglpm

Ответы:

12

Мне немного сложно понять, какая статья может быть вам интересна, поэтому позвольте мне предложить следующие из психометрической литературы:

Borsboom, D. (2006). Приступ психометристов . Психометрика , 71 , 425-440.

для украшения сцены (зачем нам использовать статистические модели, которые лучше отражают основные гипотезы, обычно встречающиеся в психологических исследованиях?), и

Borsboom, D. (2008). Психометрические перспективы диагностических систем . Журнал клинической психологии , 64 , 1089-1108.

для прикладного подхода к диагностической медицине (переход от оценки «да / нет», используемой в DSM-IV, к «размерному» подходу, предназначенному для DSM-V). Мне больше нравится обзор моделей скрытых переменных в биомедицинских исследованиях:

Рабе-Хескет, С. и Скрондал, А. (2008). Классические модели скрытых переменных для медицинских исследований . Статистические методы в медицинских исследованиях , 17 (1) , 5-32.

хл
источник
@ chl (+1) эти работы Borsboom были замечательными, они действительно расширили мои представления об измерении
richiemorrisroe
+1, мне тоже нравится Borsboom. Для тех, кто интересуется статьей «Атака», я думаю, что будет также интересен «Концепция действительности», rhowell.ba.ttu.edu/borsboomValidity2004.pdf . Хотя это немного более многословно, так что за ним не так легко следовать, как в статье «Атака».
Энди W
10

Вот пять высоко цитируемых статей за последние 40 лет из Журнала Королевского статистического общества, Серия C: Прикладная статистика с четким приложением в названии, которое попалось на глаза при сканировании результатов поиска в Web of Knowledge:

onestop
источник
9

На более широком уровне я бы порекомендовал статью [«Статистическое моделирование: две культуры»] [1] Лео Бреймана в 2001 году (цитируется 515). Я знаю, что недавно она была освещена журнальным клубом, и я нашел ее действительно интересной. Я переписал тезисы.

Аннотация. Существует две культуры использования статистического моделирования для получения выводов из данных. Предполагается, что данные генерируются данной стохастической моделью данных. Другой использует алгоритмические модели и рассматривает механизм данных как неизвестный. Статистическое сообщество привержено почти исключительно использованию моделей данных. Это обязательство привело к неуместной теории, сомнительным выводам и не позволило статистикам работать над широким спектром интересных текущих проблем. Алгоритмическое моделирование, как в теории, так и на практике, быстро развивается в областях вне статистики. Он может использоваться как для больших сложных наборов данных, так и в качестве более точной и информативной альтернативы моделированию данных для небольших наборов данных. Если наша цель как области заключается в использовании данных для решения проблем,

[1]: https://doi.org/10.1214/ss/1009213726 (открытый доступ)

Парбери
источник
8

С точки зрения генетической эпидемиологии, я бы порекомендовал следующую серию статей об исследованиях ассоциаций всего генома :

  1. Корделл Х. Дж. И Клейтон Д. Г. (2005). Исследования генетических ассоциаций . Ланцет 366, 1121-1131.
  2. Кантор Р.М., Ланге К. и Синшеймер Дж.С. (2010). Приоритетность результатов GWAS: обзор статистических методов и рекомендаций по их применению . Американский журнал генетики человека 86, 6–22.
  3. Янинидис, JPA, Томас, Дж., Дейли, MJ (2009). Подтверждение, увеличение и уточнение геномных сигналов ассоциации . Nature Reviews Genetics 10, 318-329.
  4. Болдинг, DJ (2006). Учебное пособие по статистическим методам для изучения ассоциаций населения . Nature Reviews Genetics 7, 781-791.
  5. Грин А.Е. и соавт. (2008). Использование генетических данных в когнитивной нейробиологии: от растущих болей до подлинного понимания . Nature Reviews Neuroscience 9, 710-720.
  6. McCarthy, MI et al. (2008). Общегеномные исследования ассоциаций по сложным признакам: консенсус, неопределенность и проблемы . Nature Reviews Genetics 9, 356-369.
  7. Психиатрический Координационный комитет Консорциума GWAS (2009). Исследования Genomewide Association: история, обоснование и перспективы психических расстройств . Американский журнал психиатрии 166 (5), 540-556.
  8. Себастиани, П. и соавт. (2009). Исследования геномных ассоциаций и генетическая диссекция сложных признаков . Американский журнал гематологии 84 (8), 504-15.
  9. Консорциум Wellcome Trust Case Control (2007). Общегеномное ассоциативное исследование 14 000 случаев семи распространенных заболеваний и 3000 общих контролей . Природа 447, 661-678.
  10. Консорциум Wellcome Trust Case Control (2010). Общегеномное исследование ассоциации CNV в 16 000 случаев восьми распространенных заболеваний и 3000 общих контролей . Природа 464, 713-720.
хл
источник
2

Статья с ранним влиянием в отношении статистических исследований в области биоинформатики:

Елизаров и др . Чрезмерный оптимизм в биоинформатике: иллюстрация . Биоинформатика, 2010

Это делает для интересного обсуждения источников смещения, переоснащения и ловли для значимости.

Borlaug
источник