Справочный запрос: классическая статистика для рабочих данных ученых

10

Я работаю специалистом по данным с большим опытом регрессии, других алгоритмов машинного обучения и программирования (как для анализа данных, так и для разработки общего программного обеспечения). Большая часть моей трудовой жизни была сосредоточена на построении моделей для прогнозирующей точности (работа в различных бизнес-условиях) и построении конвейеров данных для поддержки моей (и других) работы.

У меня нет официальной подготовки по статистике, мое университетское образование было сосредоточено на чистой математике. Как таковые упустили при изучении многих классических тем, особенно различных популярных тестов гипотез и логических выводов.

Есть ли какие-либо ссылки на эти темы, которые были бы уместны для кого-то с моим опытом и уровнем опыта? Я могу справиться (и оценить) математическую строгость, а также наслаждаться алгоритмическими перспективами. Я склонен любить ссылки, которые предлагают упражнения для читателя, с математическим и (или) программным фокусом.

Мэтью Друри
источник
2
Как другой Мэтт из математического происхождения, с пробелом в знаниях статистики, я могу рассказать! Есть ли какие-то конкретные области / приложения, которые вас интересуют? С классической статистикой следует обращать внимание на то, какие предположения используются.
GeoMatt22
5
Здесь есть несколько хороших ссылок: mathoverflow.net/questions/31655/statistics-for-mathematicians
Alex R.

Ответы:

3

« Вся статистика Ларри Вассермана» - хорошая книга для ознакомления с математической статистикой. Это была первая книга по математической статистике, которую я использовал сам. Он включает в себя классику, такую ​​как тестирование гипотез и оценку максимального правдоподобия, но он также имеет широкий охват недавно разработанных, но не менее важных тем, таких как начальная загрузка. Вассерман всегда имеет одну ногу в статистике, а другую - в машинном обучении, что, я думаю, должны делать все современные аналитики данных; если вы знакомы только с одним полем из двух, вы будете много пропускать. Также в книге много хороших упражнений.

Если у вас есть опыт в реальном анализе, и вам нужны необработанные, неразрезанные вещи, под которыми я подразумеваю теоретико-мерную трактовку вероятности и статистики, попробуйте Теорию статистики Марка Дж. Шервиша . Schervish - половина DeGroot и Schervish, чья менее техническая книга « Вероятность и статистика» является, пожалуй, самой популярной книгой по математической статистике на сегодняшний день. «Теория статистики» - это очень полезная книга по теме, обычно предназначаемой для аспирантов, которые должны выполнять всю работу самостоятельно. Честно говоря, я нашел эту книгу очень трудной (хотя и не такой сложной, как « Математическая статистика Цзюня Шао»).) и в конце концов почувствовал огромные усилия, необходимые для освоения, но это не было хорошим использованием моего времени в качестве прикладного аналитика данных. Но я все же многому научился и ушел с хорошим пониманием того, что такое теория мер и как ее можно использовать для устранения волосатых теоретических трудностей, возникающих в более наивном традиционном подходе к теории вероятностей. Я также стал лучше понимать сходства и различия взаимозаменяемости и независимости.

Kodiologist
источник
2

Помимо очень хороших предложений Kodiologist (+1), я также рекомендовал бы смотреть на предмет наблюдательных исследований . Я думаю, что это очень недооцененная область между исследователями данных, несмотря на то, что во многих случаях анализируемые данные носят наблюдательный характер. Я думаю, это потому, что большая часть библиографии (особенно в биостатистике) предполагает, что хотя бы какой-то квазиэкспериментальный дизайн уже существует. Книги Пола Розенбаума « Наблюдательные исследования и дизайн наблюдательных исследований» являются одними из наиболее часто используемых ссылок.

usεr11852
источник