Хорошая книга с равным акцентом на теорию и математику

10

У меня было достаточно курсов по статистике в школьные годы и в университете. У меня есть четкое понимание таких понятий, как CI, p-значения, интерпретация статистической значимости, множественное тестирование, корреляция, простая линейная регрессия (с наименьшими квадратами) (общие линейные модели) и все проверки гипотез. Я познакомился с ним большую часть ранних дней в основном математически. И в последнее время, с помощью книги « Интуитивная биостатистика» , я верю в беспримерное понимание реальной концептуальной теории.

Теперь мне не хватает понимания соответствия моделей (оценки параметров модели) и тому подобного. В частности, такие понятия, как оценка максимального правдоподобия, обобщенные линейные модели, байесовские подходы к выводной статистике, всегда кажутся мне чуждыми. Нет достаточного количества примеров, учебных пособий или концептуально обоснованных, как можно было бы найти на простых вероятностных моделях или на других (основных) темах в Интернете.

Я биоинформатик, и я работаю над данными RNA-Seq, которые имеют дело с необработанными подсчетами чтения для определения, скажем, экспрессии генов (или дифференциальной экспрессии генов). Исходя из моего прошлого, даже если я не знаком со статистическими моделями, я могу понять причину предположения о распределении Пуассона и отрицательных биномов и т. Д. Но некоторые статьи имеют дело с обобщенными линейными моделями и оценивают MLE и т. Д., Которые Я считаю, что у меня есть необходимые знания для понимания.

Я предполагаю, что я прошу о подходе, который некоторые эксперты среди вас считают полезным, и (а) книге (-ях), которая помогает мне понять эти концепции более интуитивным способом (не только строгой математикой, но и теорией, подкрепленной математикой). Поскольку я в основном собираюсь их применять, я был бы удовлетворен (на данный момент) пониманием того, что к чему, и позже я могу вернуться к строгим математическим доказательствам ... У кого-нибудь есть какие-либо рекомендации? Я не против купить больше одной книги, если темы, которые я просил, действительно разбросаны, чтобы быть покрытыми книгой.

Большое спасибо!

Arun
источник
Не могли бы вы порекомендовать мне несколько хороших источников, чтобы узнать о данных RNA-Seq и статистических проблемах в этой области?
Биостат
1
Биостат, конечно, сайт seqanswers.com - очень хороший ресурс для NGS. Вы можете начать с различных технологий и того, как они работают, отсюда: goo.gl/NLuvJ. Вот некоторые статьи, которые объясняют некоторые статистические проблемы с данными NGS. Короче говоря, это техническая и биологическая оценка дисперсии (в отношении экспрессии генов). 1) Одна из первых работ по оценке технических вариаций: ncbi.nlm.nih.gov/pubmed/18550803 2) DESeq: инструмент для определения экспрессии генов: ncbi.nlm.nih.gov/pubmed?term=DESeq%20simon%20anders
Арун
1
Преобразован в CW, потому что, похоже, будет предложено множество хороших предложений, и нет очевидного объективного стандарта для выбора «лучшего» среди них. Я надеюсь, что читателям также будет легче голосовать за множество ответов :-).
whuber
да, конечно! имеет смысл. Могу ли я сделать пост вики сообщества? или это требует модераторских привилегий?
Арун

Ответы:

5

Вы найдете все не байесовское, что вы спросили об этом Стратегии регрессионного моделирования Фрэнка Харрелла . Я бы оставил байесовские рекомендации более осведомленным людям (хотя у меня на полке лежат Гельман, Карлин, Стерн и Рубин , а также Гилкс, Ричардсон и Шпайгельхальтер ). На рынке должно быть несколько книг Байесовского биостата.

Обновление: McCullach and Nelder (1989) - это, конечно, классическая книга по GLM. Это было революционно для своего времени, но я нахожу это довольно скучным, честно говоря. Кроме того, он не охватывает более поздние добавления, такие как остаточная диагностика, модели с нулевым раздуванием или многоуровневые / иерархические расширения. Hardin и Hilbe (2007) подробно описывают некоторые из этих более новых вещей на практических примерах в Stata (где GLM и расширения очень хорошо реализованы; Хардин работал в Stata Corp., писал многие из этих команд, а также вносил вклад в сэндвич-оценка).

оборота СтасК
источник
Привет StasK, большое спасибо! Я считаю, что тот, что касается регрессионного моделирования, отвечал бы моим требованиям. Сколько они покрывают GLM? Я также вижу, что ваши ссылки на байесовский вывод являются стандартными, которые я всегда нахожу рекомендованными. На ваш взгляд, насколько легко / сложно им следовать (как если бы уровень был слишком высоким)? Кроме того, вы взглянули на книгу Обобщенные линейные модели ? Одним из авторов является JA Nelder. Кроме того, я хотел бы также купить эту книгу о статистических моделях . У тебя есть мысли по этому поводу? Спасибо!
Арун
Я не видел эту книгу Фридмана. Это довольно интересный вопрос, хотя он кажется довольно легким с точки зрения строгости, и я не уверен, что доволен этим. (Книга, которая очень легка в математике, в которой говорится о регрессии без матричной алгебры, но ОЧЕНЬ глубока в научной строгости, это «Безвредная эконометрика» Ангриста и Пишке, и если вы работаете с причинно-следственными моделями, эта книга обязательна). Я не знаю, как ты разбираешься в математике / статистике, поэтому мне будет трудно судить, будут ли эти книги трудными. Некоторые Байесовские книги могут быть; они склонны считать, что вы уже знаете MLE и GLM.
StasK
1
Я обновил свой ответ, включив в него ссылки МакКаллаха и Нелдера.
StasK
Я электронщик англ. оказался биоинформатиком. У меня были курсы по статистике (для теории коммуникации), вероятности и случайным процессам, я знаком с исчислением (хотя и немного ржавым), а также с линейной алгеброй. Конечно, это в основном уровень бакалавриата ... Моя цель - быть концептуально обоснованным (больше геометрических интерпретаций, понимания методов и, самое главное, цели) и т. Д. ... Конечно, я не против математики, если это приходит вместе с этими рецептами. Еще раз спасибо за ваши рекомендации!
Арун
3

Я бы порекомендовал следующие две книги:

  1. Статистические методы для биоинформатики
  2. Элементы статистического обучения
Биостат
источник
Эти книги объясняют хорошие вещи, но не вещи, о которых спрашивал ОП.
StasK
@StasK, не могли бы вы объяснить, чего нет в вышеперечисленных книгах?
Биостат
Я преподавал в HTF, и материал, который я преподавал в нем, касался базовых функций, эффективных степеней свободы, выбора модели, лассо, перекрестной проверки и т. Д. MLE и GLM, которые интересовали OP, упоминаются в лучшем случае мимоходом. Предполагается, что студент-статистик знаком с этим материалом по общему статистическому обучению, или студенты CS будут использовать SVM, а не логистическую регрессию в качестве коленной реакции на бинарные данные о результатах. Байесовский материал также упоминается только в той степени, в которой байесовские правила принятия решений являются в некотором смысле оптимальными; скажем, нет MCMC или сопряженности.
StasK
Вы читали книгу "Статистические методы для биоинформатики"?
Биостат
@ biostat, нет, я не имею. Я не работаю в биоинформатике, но я знаю, что это немного другой мир. Поэтому я не могу дать никаких разумных рекомендаций. По моему мнению, отрасль биостатистики, которая занимается такими моделями, как GLM, GEE, продольные модели и модели выживания, имеет больше общего с эконометрикой (так что книга Вулдриджа о моделях поперечных и панельных данных может быть хорошей рекомендацией для некоторых людей, работающих с биостатами). с этими моделями), чем со статистической генетикой, семейным контролем частоты ошибок и интеллектуальным анализом данных, что, по-видимому, является вашей областью знаний.
StasK