С чего начать со статистики для опытного разработчика

47

В первой половине 2015 года я прошел курс обучения машинному обучению (автор Andrew Ng, курс GREAT). И изучил основы машинного обучения (линейная регрессия, логистическая регрессия, SVM, нейронные сети ...)

Кроме того, я был разработчиком в течение 10 лет, поэтому изучение нового языка программирования не будет проблемой.

В последнее время я начал изучать R для реализации алгоритмов машинного обучения.

Однако я понял, что если я хочу продолжать учиться, мне понадобятся более формальные знания статистики, в настоящее время у меня есть неформальные знания о ней, но они настолько ограничены, что, например, я не могу правильно определить, какая из нескольких линейных моделей было бы лучше (обычно я использую для этого R-квадрат, но, видимо, это не очень хорошая идея).

Таким образом, мне кажется довольно очевидным, что мне нужно изучать основы статистики (я изучал это в универе, но забыл большую ее часть), где я должен учиться, обратите внимание, что мне действительно не нужен полностью всеобъемлющий курс, просто кое-что это в течение месяца позволяет мне знать достаточно, чтобы я мог стремиться и учиться больше :).

До сих пор я читал о « Статистика без слез », какие-либо другие предложения?

Хуан Антонио Гомес Мориано
источник
2
Для статистики: Casella, G. and RL Berger (2002): Статистический вывод, Duxbury. Эконометрика: Хаяси, Ф. (2000): Эконометрика, издательство Принстонского университета. Для другой точки зрения: stats.stackexchange.com/questions/91863/…
Гильерме Саломе
Я добавил referencesтег. Возможно, вы захотите просмотреть первую страницу попаданий по этой теме.
Glen_b
3
Я не вижу, что это должно быть закрыто. Я вижу аргумент для того, чтобы сделать это CW, хотя.
gung - Восстановить Монику
2
С моей точки зрения, знания будут смещены, если вы начнете изучать статистику без ознакомления с теориями вероятностей ранее.
Метариат
2
Я хотел бы добавить одно предостерегающее слово. Я уверен, что вы уже понимаете это в некоторой степени, но я просто хочу сказать это. Я студент MD / PhD. С моей степенью доктора медицины я планирую практиковать внутреннюю медицину. Для моего доктора философии я изучаю биостатистику. Я хочу, чтобы вы знали, что за 1 месяц вы не сможете овладеть статистикой, как за месяц. Я ни в коем случае не пытаюсь отговорить вас от изучения статистики. Наоборот, я надеюсь, вы прекрасно это понимаете. Но просто поймите, что это не менее важно, чем желание быть разработчиком, например.
Винсент Лауфер

Ответы:

26

Я бы предложил вам базовую дорожную карту о том, как это сделать:

Бонус:

Прекрасным сайтом для таких дорожных карт является Metacademy , который я лично назвал бы одним из лучших ресурсов Data Science в Интернете.

Gitxiv - это еще один прекрасный сайт, который связывает исследовательские работы Arxiv по Data Science с соответствующими реализациями / библиотеками с открытым исходным кодом.

Dawny33
источник
2
ОП уже прошел курс обучения Нг, и именно это побудило его сначала задать вопрос.
Аксакал
4
@Aksakal Я заметил это. Но, включил это как часть дорожной карты. На самом деле ничего бы не изменилось, поэтому я подумал, что это поможет другим, кто читает этот пост.
Dawny33
12

Вы проверили либо Think Stats, либо Think Bayes - это обе (бесплатные) книги статистики, предназначенные для программистов и с большим количеством кода на Python.

Кроме того , если вы заинтересованы в изучении R тогда CRAN имеет много (бесплатно) PDFs , которые вы можете проверить, например, введение в вероятности и статистики с использованием R . Есть также курс Coursera, который использует R, который действительно нравится многим людям (они используют этот учебник , который вы, возможно, захотите также проверить, и , я думаю , у вас есть лаборатории по DataCamp ).

Кроме того, если вы хотите освежить в памяти некоторые темы статистики, вы всегда можете посмотреть пару видеороликов в Академии Хана .

Стив С
источник
Мне нравятся Think Stats и Think Bayes, но они намеренно избегают многих формальных статистических теорий в пользу выполнения задач с помощью кода. Отлично подходит для интуитивного понимания предмета, но не так хорошо, если ваша цель - понять основную теорию.
Мариус
@Marius: я знаю, что вы имеете в виду. Я думал, однако, что, поскольку он уже программист, а также потому, что он, казалось, хотел «чего-то маленького, простого и быстрого», это могло бы быть больше из того, что он ищет.
Стив С
8

Если вы когда-либо, даже в далеком прошлом, могли решать проблемы из этого списка , то вам следует попытаться изучить прикладную статистику «должным образом». Я дам вам простой двухшаговый алгоритм.

Во-первых, научитесь теории вероятностей. Есть много замечательных книг. Моя любимая - классическая книга Феллера. Это называется «Введение», но не обманывайтесь названием, оно настолько глубокое, насколько вы хотите, но очень хорошо написано и просто, если вы просто хотите просмотреть поверхность.

Второй шаг - статистика. Опять же, есть куча замечательных книг. Я дам вам один, который я использовал, приличный вступительный текст Гуджарати "Основные эконометрики", четвертое издание. Эконометрика - это статистика, применяемая в экономике. Для справки, парень, который, как все думают, сказал, что ученый данных станет самой сексуальной работой в ближайшие 10 лет, - Хэл Вариан, экономист из Беркли. Многое из машинного обучения основано на базовой статистике, регрессиях и т. Д. Все, что описано в этой книге, вам не нужно читать все это, оно написано таким образом, что вы можете выбирать главы в своем собственном порядке.

Вы будете удивлены, увидев, сколько пробелов осталось открытым после того, как класс Нг быстро заполняется при чтении этих текстов.

Как практик, вам не нужно слишком много теории после этих двух шагов. Вы можете продолжать изучать технику ML, особенно читая книги в этой области. Важно не слишком углубляться в начало в вероятность и статистику. Получите ваш код для ML первым и заполните пробелы, как вы идете.

Аксакал
источник
4

Все рекомендуют Casella & Berger, который почти повсеместно используется в программах статистики выпускников. Это неплохой справочник, но я не уверен, что сделаю больше, чем отсканирую первые 4-5 глав. Я не думаю, что вам нужна теория о том, как построить тест типа Неймана-Пирсона, прежде чем углубляться в «статистику», то есть анализ данных.

Вместо этого я бы сосредоточился на методах обучения. Моя аспирантура использовала Прикладные Линейные Статистические Методы для тестов на частоту, и это довольно приличный исчерпывающий справочник, но, возможно, не самая доступная книга с точки зрения самообучения. Курс или два из MIT или coursera может быть лучшим способом начать с этого, потому что вы получите более широкий обзор с большим количеством примеров, чем вы могли бы прочитать книгу.

Для Байеса наиболее часто используемая книга называется « Анализ байесовских данных» , которая поставляется с изображениями щенков (очевидно, что эта книга превосходит другие вводные учебники Байеса). Я никогда не использовал книгу сам, но я пролистал ее, и она кажется довольно приличной - намного лучше, чем книга Гельмана, которую я нашел несколько непонятной ПОСЛЕ двух классов в байесовской статистике - объяснения ужасны.

srvanderplas
источник
1
Первые 5 глав C & B на самом деле вовсе не являются статистикой, они больше похожи на предысторию ... Концепция статистики рассматривается в начале главы 6! Более того, методы обучения, вероятно, не помогут этому конкретному человеку. это помогло бы ему применить статистику, а не понять ее, а это то, что ему нужно. если он продвинулся в математическом обучении, он, вероятно, может в какой-то степени его пропустить, но его ответ предполагает, что он в настоящее время не может понять основы МЛ ... что настоятельно предполагает, что его математика ограничивает (для меня, по крайней мере). C & B не может быть плохим местом для начала.
Винсент Лауфер
1
Они могут не быть статистикой, но фон для распределения вероятностей необходим для выполнения любого вида моделирования - вам нужно знать, что такое распределение Бернулли и каковы его свойства, прежде чем вы сможете понять, например, логистическую регрессию. Я до сих пор время от времени ссылаюсь на C & B, но я не думаю, что когда-либо использовал что-то кроме главы 6 за пределами класса, в котором я учился, который использовал эту книгу.
srvanderplas
1
я вполне согласен с тем, что вы сказали, но это относится к отступлению, а не к основному моменту - который я виноват в добавлении отступления в первую очередь. во всяком случае, главное в том, что, как предположили несколько других, ОП на самом деле должна лучше понять теоретическую математику и статистику. нигде в сообщении не указано, что ему нужна помощь в применении большего количества статистических тестов. он может сделать это. он хочет понять их глубже. для этого C & B лучше, чем изучать больше рук по прикладной подготовке.
Винсент Лауфер
3

Это не полный ответ, это просто предложение. Если вы хотите узнать больше о статистике (основы), вы можете прочитать:

Casella, G. and R. L. Berger (2002): Statistical Inference, Duxbury

Это довольно стандартная книга для статистиков, и она имеет много интересных результатов. Вам не нужно проходить все доказательства теорем, но вы можете выполнить некоторые упражнения, чтобы чувствовать себя более уверенно с результатами.

Если вы хотите узнать больше об эконометрике (модели для данных), вы можете взглянуть на:

Hayashi, F. (2000): Econometrics, Princeton University Press

Кто-то на самом деле спросил что-то похожее на то, что вы спросили, и получил хороший ответ: что делать после "Casella & Berger" .

Кроме того, если вы действительно намереваетесь читать эти книги, этот учебный курс по эконометрике может дать вам довольно хорошее направление и темп того, что читать (CB & Hayashi) и когда читать.

Гильерме Саломе
источник
Спасибо за предложение, однако первая книга, которую вы упомянули, составляет около 660 страниц ... Я прочитал большие книги, но есть ли что-то маленькое, простое и быстрое, чтобы я мог понять его основную часть?
Хуан Антонио Гомес Мориано
3
Казелла и Бергер познакомят вас с теорией статистики, но вы очень мало узнаете об анализе данных.
Glen_b
1
@JuanAntonioGomezMoriano, как мало вы были после? Я всегда был поклонником Как лечь со статистикой в качестве отправной точки.
icc97
(-1) Это звучит как идеальный выбор для тех, кто предпочитает математический или теоретический подход к статистике, в значительной степени противоположный тому, что запрашивал ОП.
Гала
1
Он сказал, что ему нужны более «формальные» знания и базовые знания о статистике.
Гильерме Саломе
2

Я бы предложил новую книгу, вышедшую после первоначального вопроса: « Статистическое переосмысление: байесовский курс с примерами на R и Stan » Ричарда МакЭлрина, CRC Press.

Это очень хорошо написано и использует байесовский подход. Он очень интерактивный, и вы захотите решить проблемы, иначе вы можете пройти половину пути и начать заблудиться.

Он начинается с самых простых и заканчивается многоуровневыми моделями и нацелен на довольно продвинутых ученых, которые имеют некоторые статистические знания, но в целом не чувствуют себя комфортно со статистикой, которой их учили. Так что я не могу точно сказать, что это книга для начинающих, но она начинается очень просто, и у него замечательная арка и стиль.

Часть «Stan» в заголовке является универсальным байесовским инструментом выборки. По сути, это язык программирования, который автоматически компилируется в C ++, а затем компилируется в исполняемый файл. (Байесовский вывод является общим, в отличие от альтернатив, поэтому вы можете использовать обобщенный инструмент.)

Wayne
источник
1

Подумал, что я добавлю этот ответ для потомков, даже если это будет слишком поздно, чтобы быть полезным для вас. Вся статистика Ларри Вассермана была задуман как курс для людей с опытом работы в области машинного обучения, других компьютерных дисциплин или математики, у которых не было формального обучения статистике, то есть людей, которые в значительной степени точно соответствуют вашей текущей ситуации. Имея аналогичное отсутствие формальной статистики, несколько друзей и я сформировали группу самообучения, чтобы пройти ее в аспирантуре. Я думаю, что я действительно извлек выгоду из этого опыта.

Дополнительные темы, которые Вассерман предлагает за рамками типичного учебного материала по «вероятности и статистическому выводу», такие как графические модели и начальная загрузка, особенно актуальны для тех, кто работает в области машинного обучения. Я должен сказать, что книга может быть довольно краткой по сравнению с чем-то вроде Casella & Berger, поэтому, если вы хотите больше деталей или мотивации для определенных частей (особенно доказательств), вам, возможно, придется дополнить ее другим материалом для чтения. Тем не менее, я также обнаружил, что книга написана четко с большим количеством практических проблем, и это отличный быстрый справочник.

Один месяц не много времени. Однако, если вы установите очень агрессивный темп, я думаю, что вы, безусловно, сможете многому научиться из этого текста за один семестр: например, мы провели нашу группу самообучения в течение лета. Это особенно верно, если вы в основном заинтересованы в линейном моделировании, которое вас поразит гл. 13-14.

Патрик Б.
источник