Математик хочет, чтобы эквивалентные знания в степени качества статистики

77

Я знаю, что люди любят закрывать дубликаты, поэтому я не прошу ссылки для начала изучения статистики (как здесь ).

У меня есть докторская степень по математике, но я никогда не изучал статистику. Каков кратчайший путь к эквивалентным знаниям в высшей степени статистики БС и как мне измерить, когда я достиг этого.

Если список книг будет достаточным (предположим, что я выполняю упражнения, скажем так), это потрясающе. Да, я ожидаю, что решение проблем будет неявной частью изучения этого, но я хочу ускорить процесс настолько, насколько это возможно. Я не ищу безумно строгое обращение, если это не часть того, чему обычно учат статистические специалисты.

Джон Робертсон
источник
1
в какой области математики вы получили докторскую степень? Это может быть актуально.
mpiktas
7
Не могли бы вы поделиться с нами, почему вы хотите узнать статистику? Любопытство? Необходим для проекта или исследования? Хотите сменить работу? Нужно преподавать некоторые курсы? Хотите сотрудничать со статистиками как теоретик?
whuber
5
Я думаю, что почти всегда важно также развивать экспертизу в конкретной области. Много статистики изучает модели, относящиеся к конкретным областям.
Тристан
10
Попробуйте поменять местами: «Статистик хочет получить эквивалентные знания для получения качественной математики» - быстрых маршрутов вряд ли будет.
вероятностная
1
«Я знаю, что люди любят закрывать дубликаты», я рассмеялся.
Мустафа С Эйса

Ответы:

77

(Очень) рассказ

Короче говоря, в некотором смысле статистика похожа на любую другую техническую область: быстрого пути нет .

Длинная история

Программы бакалавриата по статистике в США относительно редки. Одна из причин, по которой я считаю это верным, заключается в том, что в учебную программу бакалавриата довольно сложно собрать все необходимое для изучения статистики. Это особенно верно в университетах, которые предъявляют значительные требования к общему образованию.

Развитие необходимых навыков (математических, вычислительных и интуитивно понятных) занимает много сил и времени. Статистику можно начать понимать на довольно приличном «операционном» уровне, когда студент освоит исчисление и приличное количество линейной и матричной алгебры. Тем не менее, любой специалист по прикладной статистике знает, что довольно легко найти себя на территории, которая не соответствует подходу к статистике, основанному на принципах печенья или на основе рецептов. Чтобы действительно понять, что происходит под поверхностью, необходимо в качестве предварительного условияматематическая и, в современном мире, вычислительная зрелость, которая реально достижима только в последние годы обучения в бакалавриате. Это одна из причин того, что настоящая статистическая подготовка в основном начинается на уровне MS в США (Индия, с их специализированным ISI, это немного другая история. Подобный аргумент может быть приведен для некоторого канадского образования. Я недостаточно знаком с Европейское или российское образование по статистике для студентов, чтобы иметь обоснованное мнение.)

Практически любая (интересная) работа потребует образования на уровне MS, а действительно интересные (на мой взгляд) рабочие места, по сути, требуют обучения на уровне докторантуры.

Поскольку у вас есть докторская степень по математике, хотя мы не знаем, в какой области, вот мои предложения относительно чего-то более близкого к образованию на уровне MS. Я включаю некоторые замечания в скобках, чтобы объяснить выбор.

  1. Д. Хафф, Как лгать со статистикой . (Очень быстро, легко читается. Показывает многие концептуальные идеи и подводные камни, в частности, при представлении статистики неспециалисту.)
  2. Настроение, Грейбилл и Боес, Введение в теорию статистики , 3-е изд., 1974. (Введение на уровне MS в теоретическую статистику. Вы узнаете о распределении выборки, точечной оценке и проверке гипотез в классической, частой структуре. Мнение заключается в том, что это, как правило, лучше и немного более продвинуто, чем современные аналоги, такие как Casella & Berger или Rice.)
  3. Seber & Lee, Линейный регрессионный анализ , 2-е изд. (Изложена теория, лежащая в основе оценки точек и проверки гипотез для линейных моделей, которая, вероятно, является наиболее важной темой для понимания в прикладной статистике. Поскольку вы, вероятно, обладаете хорошим фоном линейной алгебры, вы должны сразу же понять, что происходит геометрически , который обеспечивает большую интуицию. Также имеет хорошую информацию, связанную с вопросами оценки при выборе модели, отклонениями от предположений, прогнозов и надежных версий линейных моделей.)
  4. Хасти, Тибширани и Фридман, Элементы статистического обучения , 2-е изд., 2009 г. (Эта книга имеет гораздо более прикладное значение, чем предыдущая, и широко охватывает множество современных тем машинного обучения. Основной вклад здесь заключается в предоставлении статистических интерпретаций из многих идей машинного обучения, которые окупаются, в частности, в количественной оценке неопределенности в таких моделях. Это то, что имеет тенденцию идти вразрез с обычными книгами по машинному обучению. Юридически доступно здесь бесплатно .)
  5. А. Агрести, Категориальный анализ данных , 2-е изд. (Хорошее представление о том, как обращаться с дискретными данными в статистической структуре. Хорошая теория и хорошие практические примеры. Возможно, с традиционной стороны в некоторых отношениях.)
  6. Boyd & Vandenberghe, Выпуклая оптимизация . (Многие из самых популярных современных проблем статистической оценки и проверки гипотез могут быть сформулированы как задачи выпуклой оптимизации. Это также относится к многочисленным методам машинного обучения, например, SVM. Имея более широкое понимание и способность распознавать такие проблемы как выпуклые программы Я думаю, что это совершенно бесплатно. Легально доступно здесь бесплатно .)
  7. Эфрон и Tibshirani, Введение в Bootstrap . (Вы должны, по крайней мере, быть знакомы с начальной загрузкой и сопутствующими методами. Для учебника это быстро и легко читается.)
  8. Дж. Лю, Монте-Карло Стратегии в области научных вычислений или П. Глассерман, Методы Монте-Карло в области финансового инжиниринга . (Последнее звучит очень направленно на конкретную область применения, но я думаю, что это даст хороший обзор и практические примеры всех наиболее важных методов. Приложения финансового инжиниринга привели к значительному количеству исследований Монте-Карло за последнее десятилетие или около того .)
  9. Э. Туфте . Визуальное отображение количественной информации . (Хорошая визуализация и представление данных [сильно] недооцениваются даже статистиками.)
  10. Дж. Тьюки, Исследовательский анализ данных . (Стандартно. Олди, но вкусненькое. Некоторые могут сказать, что устарели, но все же стоит посмотреть.)

Дополняет

Вот некоторые другие книги, в основном немного более продвинутые, теоретические и / или вспомогательные, которые полезны.

  1. Ф. А. Грейбилл, Теория и применение линейной модели . (Старомодный, ужасный набор текста, но охватывает все те же основы Seber & Lee и т. Д. Я говорю старомодно, потому что более современные методы лечения, вероятно, будут использовать SVD для унификации и упрощения многих методов и доказательств.)
  2. Ф. А. Грейбилл, Матрицы с приложениями в статистике . (Сопутствующий текст к вышеупомянутому. Множество хороших результатов алгебры матриц, полезных для статистики здесь. Отличная настольная ссылка.)
  3. Деврой, Дьёрфи и Лугоши . Вероятностная теория распознавания образов . (Строгий и теоретический текст по количественной оценке производительности в задачах классификации.)
  4. Броквелл и Дэвис, Временные ряды: теория и методы . (Классический анализ временных рядов. Теоретическая обработка. Для более прикладных, тексты Box, Jenkins & Reinsel или Ruey Tsay вполне приличные.)
  5. Мотвани и Рагхаван. Рандомизированные алгоритмы . (Вероятностные методы и анализ для вычислительных алгоритмов.)
  6. Д. Уильямс, Вероятность и Мартингейл и / или Р. Дарретт, Вероятность: теория и примеры . (В случае, если вы видели теорию мер, скажем, на уровне Д.Л. Кон, но, возможно, не теорию вероятностей. Оба хороши для быстрого освоения скорости, если вы уже знаете теорию мер.)
  7. Ф. Харрелл, Стратегии регрессионного моделирования . (Не так хорошо, как Элементы Статистического Обучения [ESL], но имеет другой и интересный подход к вещам. Охватывает более «традиционные» темы прикладной статистики, чем ESL, и поэтому о нем стоит знать наверняка.)

Более продвинутые (докторантура) тексты

  1. Леманн и Казелла, Теория оценки точек . (На уровне доктора наук оценка баллов. Часть задачи этой книги - прочитать ее и выяснить, что является опечаткой, а что нет. Когда вы увидите, как быстро их узнаете, вы поймете, что понимаете. такого типа там, особенно если вы погрузитесь в проблемы.)

  2. Леман и Романо, Проверка статистических гипотез . (Обработка гипотез на уровне PhD. Не так много опечаток, как TPE выше.)

  3. А. ван дер Ваарт, Асимптотическая статистика . (Прекрасная книга по асимптотической теории статистики с хорошими подсказками по прикладным областям. Хотя это не прикладная книга. Единственное, что я могу сказать, это то, что используются довольно странные обозначения, а детали иногда вытираются щеткой.)

кардинал
источник
1
@cardinal, бывшие советские университеты проводят отдельные исследования по статистике студентов. Например, в Вильнюсском университете вы можете получить степень бакалавра в области статистики. Исходя из того, что я вижу со студентами, я искренне согласен с тем, что для интересных рабочих мест требуется магистерское или даже докторское образование.
mpiktas
1
@cardinal, @mpiktas 4 года в BS + 2 года в MS + 4 года в PhD - десять лет на изучение чего-то интересного :) Я бы дал на этот замечательный ответ, если это возможно. Большинство книг являются новыми для меня. +
Дмитрий Челов
2
@ Джон Сальватье, вы правы, что эти методы не описаны в этом тексте. Опять же, это кажется мне делом вкуса, особенно потому, что основное внимание в тексте уделяется не алгоритмам. То есть, ваши опасения непосредственно рассматриваются авторами во введении (стр. 13).
кардинал
2
@cardinal: Скандинавские университеты обычно также предлагают степени бакалавра. При этом, я думаю, что статистики относятся к себе слишком серьезно. Я не согласен с тем, что вам нужна докторская степень, чтобы получить "интересную" работу. Я считаю, что по мере того, как наука и исследования становятся все более и более междисциплинарной статистикой, навязываются исследования из разных областей. Половина статей в журналах с высокой отдачей содержит сомнительный статистический анализ, просто для того, чтобы удовлетворить требования, даже если это не имеет никакого смысла, учитывая в оригинальном контексте / области проблемы.
posdef
1
Книга @cardinal Mood была отличным предложением, потому что в настоящее время трудно найти вводную книгу по статистике, которая была бы достаточно формальной для кого-то с математическим образованием. Кто-нибудь читал эту книгу новую книгу? Панатерос, «Статистика для математиков» springer.com/us/book/9783319283395
Игорь Фобия
11

Я не могу говорить о более строгих школах, но я делаю степень бакалавра в области общей статистики (самая строгую в моей школе) в Калифорнийском университете в Дэвисе, и я довольно сильно полагаюсь на строгость и происхождение. Докторантура по математике будет полезна, поскольку у вас будет очень хороший опыт в реальном анализе и линейной алгебре - полезные навыки в области статистики. В моей статистической программе около 50% курсовых работ направлено на поддержку основ (линейная алгебра, реальный анализ, исчисление, вероятность, оценка), а остальные 50% направлены на специализированные темы, основанные на основах (непараметрика, вычисления, ANOVA / Регрессия, временные ряды, байесовский анализ).
Как только вы получите базовые знания, переход к специфике обычно не так уж сложен. Большинство учеников в моих классах борются с доказательствами и реальным анализом и легко разбираются в статистических понятиях, поэтому совершенно точно поможет математический фон. Тем не менее, следующие два текста имеют довольно хорошее освещение многих тем, охватываемых статистикой. Кстати, и то, и другое было рекомендовано по указанной вами ссылке, поэтому я бы не стал отвечать на ваш вопрос, а тот, который вы указали, обязательно не коррелирован.

Математические методы статистики , Харальд Крамер

Вся статистика: краткий курс по статистическому выводу , Ларри Вассерман

Кристофер Аден
источник
3
+1 Вся статистика: это было бы отличное место для начала.
Саймон Бирн
1
Программа UC-Davis выглядит неплохо, и я думаю, что вы получите там хорошее образование. Я не считаю это "менее строгим", чем в других местах. Я думал, что комментарий на их странице «Интегрированная степень бакалавра / магистра» был интересным и актуальным для темы: «Существует высокий спрос на статистиков, но знаний и навыков, достигнутых специалистами со степенью бакалавра в области статистики, часто недостаточно для потребности на [государственном или промышленном] рабочем месте ".
кардинал
9

Королевское статистическое общество Великобритании предлагает диплом магистра в области статистики, который находится на уровне хорошей степени бакалавра. Программа, список чтения и прошлые статьи доступны на их веб-сайте . Я знал, что математики используют это, чтобы набрать скорость в статистике. Сдача экзаменов (официально или не выходя из собственного кабинета) может быть полезным способом измерения, когда вы там.

Scortchi - Восстановить Монику
источник
3
Выпускные экзамены на получение диплома по сути являются экзаменами для выпускников последнего года обучения; для «промежуточных» целей существуют сертификаты более низкого уровня, которые можно получить первыми. Экзамены RSS доступны, если я правильно помню, по всему миру, за исключением Гонконга (который имеет свое собственное статистическое общество и экзамены). Альтернативой является диплом бакалавра в области статистики, предлагаемый дистанционным обучением Открытым университетом в Великобритании, но снова доступный по всему миру. Это немного ниже уровня, чем RSS Grad Dip, поэтому может рассматриваться как подготовка к нему. Как преподаваемый курс это существенно дороже.
Серебряная рыба
5

Я посещал веб-сайты учебных программ лучших школ статистики, записывал книги, которые они используют в своих курсах для студентов, смотрел, какие из них высоко оценены на Amazon, и заказывал их в своей публичной / университетской библиотеке.

Некоторые школы, чтобы рассмотреть:

Дополните тексты различными лекционными видео сайтами, такими как MIT OCW и videolectures.net.

У Caltech нет степени бакалавра в области статистики, но вы не ошибетесь, если будете следовать учебным планам их курсов по статистике.

Нил Макгиган
источник
1
это кажется немного странным списком. Насколько мне известно, Carnegie Mellon - единственная школа в этом списке, которая (формально) предлагает степень бакалавра в области статистики. Ни Caltech, ни MIT даже не имеют дипломных программ по статистике.
кардинал
@cardinal. почему ты должен сомневаться во мне? :) Я вставил ссылки на курсы по статистике в этих прекрасных заведениях. Кроме того, смешивание и сопоставление курсов из лучших школ будет лучше, если учиться по ступеням плохой школы.
Нил Макгиган
2
OCW, безусловно, очень хороший ресурс и отличная инициатива. В этом нет сомнений. Что касается вашего утверждения о том, что смешивание и сопоставление из «лучших школ» - превосходное решение, я нахожу это весьма подозрительным, особенно для обучения в бакалавриате. В то время как высоко мотивированный студент обязан получить очень хорошее высшее образование в любой из этих школ, такое же хорошее или лучшее образование можно найти во многих, многих «худших» школах. Я бы сказал, что школы, подобные тем, которые вы перечислили, имеют тенденцию «выигрывать» для обучения в магистратуре.
кардинал
2
На самом деле, это было первое, что я попробовал. Я попробовал это, прежде чем отправлять вопрос. Найти список курсов было не сложно, но найти информацию о том, какие книги на самом деле использовались для этих курсов и какие разделы этих книг были освещены, было гораздо сложнее.
Джон Робертсон
3

Я видел статистический вывод Сильвея, который использовали математики, которым требовалось практическое понимание статистики. Это небольшая книга, и по праву должна быть дешевой. Глядя на http://www.amazon.com/Statistical-Inference-Monographs-Statistics-Probability/dp/0412138204/ref=sr_1_1?ie=UTF8&s=books&qid=1298750064&sr=1-1 , кажется, что это дешевая секундная стрелка.

Он старый и концентрируется на классической статистике. Хотя это не очень абстрактно, оно предназначено для достаточно математической аудитории - многие из упражнений взяты из Кембриджского (Великобритания) диплома по математической статистике, который в основном является магистром.

mcdowella
источник
3

Что касается измерения ваших знаний: вы можете посетить некоторые соревнования по сбору данных / анализу данных, такие как 1 , 2 , 3 , 4 , и посмотреть, как вы оцениваете по сравнению с другими.

В ответах много указателей на учебники по математической статистике. Я хотел бы добавить в качестве актуальных тем:

  • компонент эмпирического социального исследования, включающий теорию выборки, социально-демографические и региональные стандарты
  • управление данными, которое включает в себя знания о базах данных (написание SQL-запросов, общие схемы баз данных)
  • общение, как представить результаты так, чтобы аудитория не спала (методы визуализации)

Отказ от ответственности: я не статистика, это только мои 2cents

Карстен В.
источник
3

ET Jaynes "Теория вероятностей: логика науки: принципы и элементарные приложения, том 1", издательство Cambridge University Press, 2003, в значительной степени необходимо прочитать для байесовской стороны статистики, примерно на правильном уровне. Я с нетерпением жду рекомендаций для частой стороны вещей (у меня есть множество монографий, но очень мало хороших общих текстов).

Дикран Сумчатый
источник
3
Я бы посоветовал прочитать его всем, кто хочет стать хорошим статистиком, частым специалистом, байесовцем или кем-либо еще.
вероятностная
10
Я не согласен, книга Джейнса - ужасная рекомендация в этих обстоятельствах: 1) нотация небрежная и нестандартная, что затрудняет перекрестные ссылки с другими источниками, 2) он долго ломит голову и увязает в глупых и нерелевантных аргументах (ОП попросил «кратчайший маршрут») 3) есть также ошибки (такие как парадокс маргинализации)
Саймон Бирн
1
@Dikran Marsupial, у вас есть Schervish текст на статистический вывод? Я был на ограждении относительно того, стоит ли покупать его или нет, поэтому было любопытно, так как вы, кажется, довольно сильно согласились с байесовским подходом.
кардинал
1
Я бы не сказал, что был сильно привязан к байесовскому подходу. Это подход, который я понимаю лучше всего, это не одно и то же. По сути, я в глубине души инженер, и я хочу, чтобы оба инструмента в моем наборе инструментов содержались в хорошем состоянии! Мы должны стремиться к правильному пониманию преимуществ и недостатков каждого подхода. У меня нет книги Шервишей, но я прочитал его статью о Байесовских факторах, которая показалась мне довольно некорректной (я посмотрю, смогу ли я найти ее и опубликую вопрос, чтобы кто-то мог мне это объяснить!).
Дикран Marsupial
@Dikran, твой (потенциальный) вопрос звучит интересно. Я с нетерпением жду сообщения о нем.
кардинал
3

Я из области компьютерных наук, специализируюсь на машинном обучении. Тем не менее, я действительно начал понимать (и, что более важно, применять) статистику после прохождения курса по распознаванию образов с использованием книги Бишопа https://www.microsoft.com/en-us/research/people/cmbishop/#!prml-book

Вот несколько слайдов курса из MIT:
http://www.ai.mit.edu/courses/6.867-f03/lectures.html

Это просто даст вам фон (+ немного кода Matlab), чтобы использовать статистику для реальных задач, и определенно больше в прикладной части.

Тем не менее, это сильно зависит от того, что вы хотите сделать со своими знаниями. Чтобы определить, насколько вы хороши, вы, возможно, захотите просмотреть открытые курсы некоторых университетов для курсов продвинутой статистики, чтобы проверить, знакомы ли вы с обсуждаемыми темами. Просто мои 5 центов

kgarten
источник
1

Я думаю, что Стэнфорд предоставляет лучшие ресурсы, когда дело доходит до гибкости. У них даже есть онлайн-курс по машинному обучению, который предоставит вам респектабельную базу знаний, когда речь заходит о разработке алгоритмов в R. Найдите его в Google, и он перенаправит вас на страницу Lagunita, где у них есть несколько интересных курсов, большинство из которых они были свободны. У меня есть книги Тибширани «Введение в статистическое обучение» и «Элементы статистического обучения» в форматах PDF, и оба они являются чрезвычайно хорошими ресурсами.

Поскольку вы математик, я бы все же посоветовал вам не ускоряться, поскольку это не обеспечило бы вам прочной основы, которая может оказаться очень полезной в будущем, если вы вообще начнете заниматься серьезным машинным обучением. Рассматривайте статистику как раздел математики для получения информации из данных, и это требует некоторой работы. Помимо этого, есть тонны онлайн-ресурсов, Джонс Хопкинс предоставляет такие же вещи, как Стэнфорд. Хотя опыт всегда окупается, респектабельные полномочия всегда будут укреплять эту базу. Вы также можете думать о конкретных полях, которые вы хотели бы ввести; под этим я подразумеваю, хотите ли вы заняться текстовой аналитикой или применить свои навыки математики и статистики в области финансов. Я прихожу в последнюю категорию, поэтому у меня есть степень по эконометрике, где мы изучали финансы + статистика. Комбинация всегда может быть очень хорошей.

оборота Шив_90
источник