В первой половине 2015 года я прошел курс обучения машинному обучению (автор Andrew Ng, курс GREAT). И изучил основы машинного обучения (линейная регрессия, логистическая регрессия, SVM, нейронные сети ...)
Кроме того, я был разработчиком в течение 10 лет, поэтому изучение нового языка программирования не будет проблемой.
В последнее время я начал изучать R для реализации алгоритмов машинного обучения.
Однако я понял, что если я хочу продолжать учиться, мне понадобятся более формальные знания статистики, в настоящее время у меня есть неформальные знания о ней, но они настолько ограничены, что, например, я не могу правильно определить, какая из нескольких линейных моделей было бы лучше (обычно я использую для этого R-квадрат, но, видимо, это не очень хорошая идея).
Таким образом, мне кажется довольно очевидным, что мне нужно изучать основы статистики (я изучал это в универе, но забыл большую ее часть), где я должен учиться, обратите внимание, что мне действительно не нужен полностью всеобъемлющий курс, просто кое-что это в течение месяца позволяет мне знать достаточно, чтобы я мог стремиться и учиться больше :).
До сих пор я читал о « Статистика без слез », какие-либо другие предложения?
источник
references
тег. Возможно, вы захотите просмотреть первую страницу попаданий по этой теме.Ответы:
Я бы предложил вам базовую дорожную карту о том, как это сделать:
Бонус:
Прекрасным сайтом для таких дорожных карт является Metacademy , который я лично назвал бы одним из лучших ресурсов Data Science в Интернете.
Gitxiv - это еще один прекрасный сайт, который связывает исследовательские работы Arxiv по Data Science с соответствующими реализациями / библиотеками с открытым исходным кодом.
источник
Вы проверили либо Think Stats, либо Think Bayes - это обе (бесплатные) книги статистики, предназначенные для программистов и с большим количеством кода на Python.
Кроме того , если вы заинтересованы в изучении R тогда CRAN имеет много (бесплатно) PDFs , которые вы можете проверить, например, введение в вероятности и статистики с использованием R . Есть также курс Coursera, который использует R, который действительно нравится многим людям (они используют этот учебник , который вы, возможно, захотите также проверить, и , я думаю , у вас есть лаборатории по DataCamp ).
Кроме того, если вы хотите освежить в памяти некоторые темы статистики, вы всегда можете посмотреть пару видеороликов в Академии Хана .
источник
Если вы когда-либо, даже в далеком прошлом, могли решать проблемы из этого списка , то вам следует попытаться изучить прикладную статистику «должным образом». Я дам вам простой двухшаговый алгоритм.
Во-первых, научитесь теории вероятностей. Есть много замечательных книг. Моя любимая - классическая книга Феллера. Это называется «Введение», но не обманывайтесь названием, оно настолько глубокое, насколько вы хотите, но очень хорошо написано и просто, если вы просто хотите просмотреть поверхность.
Второй шаг - статистика. Опять же, есть куча замечательных книг. Я дам вам один, который я использовал, приличный вступительный текст Гуджарати "Основные эконометрики", четвертое издание. Эконометрика - это статистика, применяемая в экономике. Для справки, парень, который, как все думают, сказал, что ученый данных станет самой сексуальной работой в ближайшие 10 лет, - Хэл Вариан, экономист из Беркли. Многое из машинного обучения основано на базовой статистике, регрессиях и т. Д. Все, что описано в этой книге, вам не нужно читать все это, оно написано таким образом, что вы можете выбирать главы в своем собственном порядке.
Вы будете удивлены, увидев, сколько пробелов осталось открытым после того, как класс Нг быстро заполняется при чтении этих текстов.
Как практик, вам не нужно слишком много теории после этих двух шагов. Вы можете продолжать изучать технику ML, особенно читая книги в этой области. Важно не слишком углубляться в начало в вероятность и статистику. Получите ваш код для ML первым и заполните пробелы, как вы идете.
источник
Все рекомендуют Casella & Berger, который почти повсеместно используется в программах статистики выпускников. Это неплохой справочник, но я не уверен, что сделаю больше, чем отсканирую первые 4-5 глав. Я не думаю, что вам нужна теория о том, как построить тест типа Неймана-Пирсона, прежде чем углубляться в «статистику», то есть анализ данных.
Вместо этого я бы сосредоточился на методах обучения. Моя аспирантура использовала Прикладные Линейные Статистические Методы для тестов на частоту, и это довольно приличный исчерпывающий справочник, но, возможно, не самая доступная книга с точки зрения самообучения. Курс или два из MIT или coursera может быть лучшим способом начать с этого, потому что вы получите более широкий обзор с большим количеством примеров, чем вы могли бы прочитать книгу.
Для Байеса наиболее часто используемая книга называется « Анализ байесовских данных» , которая поставляется с изображениями щенков (очевидно, что эта книга превосходит другие вводные учебники Байеса). Я никогда не использовал книгу сам, но я пролистал ее, и она кажется довольно приличной - намного лучше, чем книга Гельмана, которую я нашел несколько непонятной ПОСЛЕ двух классов в байесовской статистике - объяснения ужасны.
источник
Это не полный ответ, это просто предложение. Если вы хотите узнать больше о статистике (основы), вы можете прочитать:
Casella, G. and R. L. Berger (2002): Statistical Inference, Duxbury
Это довольно стандартная книга для статистиков, и она имеет много интересных результатов. Вам не нужно проходить все доказательства теорем, но вы можете выполнить некоторые упражнения, чтобы чувствовать себя более уверенно с результатами.
Если вы хотите узнать больше об эконометрике (модели для данных), вы можете взглянуть на:
Hayashi, F. (2000): Econometrics, Princeton University Press
Кто-то на самом деле спросил что-то похожее на то, что вы спросили, и получил хороший ответ: что делать после "Casella & Berger" .
Кроме того, если вы действительно намереваетесь читать эти книги, этот учебный курс по эконометрике может дать вам довольно хорошее направление и темп того, что читать (CB & Hayashi) и когда читать.
источник
Я бы предложил новую книгу, вышедшую после первоначального вопроса: « Статистическое переосмысление: байесовский курс с примерами на R и Stan » Ричарда МакЭлрина, CRC Press.
Это очень хорошо написано и использует байесовский подход. Он очень интерактивный, и вы захотите решить проблемы, иначе вы можете пройти половину пути и начать заблудиться.
Он начинается с самых простых и заканчивается многоуровневыми моделями и нацелен на довольно продвинутых ученых, которые имеют некоторые статистические знания, но в целом не чувствуют себя комфортно со статистикой, которой их учили. Так что я не могу точно сказать, что это книга для начинающих, но она начинается очень просто, и у него замечательная арка и стиль.
Часть «Stan» в заголовке является универсальным байесовским инструментом выборки. По сути, это язык программирования, который автоматически компилируется в C ++, а затем компилируется в исполняемый файл. (Байесовский вывод является общим, в отличие от альтернатив, поэтому вы можете использовать обобщенный инструмент.)
источник
Подумал, что я добавлю этот ответ для потомков, даже если это будет слишком поздно, чтобы быть полезным для вас. Вся статистика Ларри Вассермана была задуман как курс для людей с опытом работы в области машинного обучения, других компьютерных дисциплин или математики, у которых не было формального обучения статистике, то есть людей, которые в значительной степени точно соответствуют вашей текущей ситуации. Имея аналогичное отсутствие формальной статистики, несколько друзей и я сформировали группу самообучения, чтобы пройти ее в аспирантуре. Я думаю, что я действительно извлек выгоду из этого опыта.
Дополнительные темы, которые Вассерман предлагает за рамками типичного учебного материала по «вероятности и статистическому выводу», такие как графические модели и начальная загрузка, особенно актуальны для тех, кто работает в области машинного обучения. Я должен сказать, что книга может быть довольно краткой по сравнению с чем-то вроде Casella & Berger, поэтому, если вы хотите больше деталей или мотивации для определенных частей (особенно доказательств), вам, возможно, придется дополнить ее другим материалом для чтения. Тем не менее, я также обнаружил, что книга написана четко с большим количеством практических проблем, и это отличный быстрый справочник.
Один месяц не много времени. Однако, если вы установите очень агрессивный темп, я думаю, что вы, безусловно, сможете многому научиться из этого текста за один семестр: например, мы провели нашу группу самообучения в течение лета. Это особенно верно, если вы в основном заинтересованы в линейном моделировании, которое вас поразит гл. 13-14.
источник