Какие книги о науке и математике стоят за наукой о данных? Такое ощущение, что многие книги по науке о данных являются учебными пособиями по программированию и не затрагивают такие вещи, как процессы генерации данных и статистический вывод. Я уже могу кодировать, что я слаба по математике / статистике / теории за то, что я делаю.
Если я готов записать 1000 долларов на книги (около 10 книг ... вздох), что я могу купить?
Примеры: категориальный анализ данных Agresti , линейные смешанные модели для продольных данных и т. Д. И т. Д.
Ответы:
Вводная:
Копать глубже:
Некоторые особые интересные примеры:
Более широкое руководство работает по машинному обучению (не совсем то, что вы просили, но для полноты):
Бонусная бумага:
источник
Если бы я только мог порекомендовать вам одну, это были бы: Элементы статистического обучения и прогнозирования Хасти, Тибширани и Фридмана. Это обеспечивает математику / статистику позади многих обычно используемых методов в науке о данных.
Для байесовских методов отлично подходит байесовский анализ данных Гельмана, Карлина, Стерна, Дансона, Вехтари и Рубина.
Статистический вывод Казеллы и Бергера - хороший учебник для выпускников по теоретическим основам статистики. Эта книга требует довольно высокого уровня комфорта по математике (теория вероятностей основана на теории мер, которую нетривиально понять).
Что касается процессов генерации данных, у меня нет рекомендации для книги. Что я могу сказать, так это то, что хорошее понимание допущений использованных методов и обеспечение того, чтобы данные были собраны или созданы таким образом, чтобы не нарушать эти допущения, имеют большое значение для хорошего анализа.
источник
Другие ответы рекомендовали хороший набор книг по математике, стоящей за наукой о данных. Но, как вы упомянули, не только математика и такие виды деятельности, как сбор данных и вывод данных, имеют свои собственные правила и теории, даже если они не такие строгие, как математические основы (пока).
В качестве части этих тезисов я предлагаю книгу « Красивые данные: истории позади элегантных решений для данных», в которой содержится двадцать тематических исследований, таких как главы, написанные людьми, действительно занимающимися проблемами анализа данных в реальном мире. Он не содержит никакой математики, но исследует такие области, как сбор данных, поиск практических способов использования данных в анализе, масштабирование и выбор наилучших решений.
Другая действительно интересная книга - « Мышление с данными: как превратить информацию в понимание» , которая также не является технической (= учебник по программированию), но охватывает важные темы о том, как действительно использовать силу науки о данных при принятии решений и в реальных проблемах.
источник
Мне нравятся предложения Амира Али Акбари, и я добавлю несколько моих собственных, сосредоточив внимание на темах и навыках, которые недостаточно освещены в большинстве книг по машинному обучению и анализу данных, которые посвящены математике и / или программированию.
Очистка данных:
Байесовский анализ данных (альтернатива тестированию на значение нулевой гипотезы в стиле Фишера):
Вывод перед лицом неопределенности, неполноты, противоречий, двусмысленности, неточности, невежества и т. Д .:
Эксперименты:
Моделирование:
Экспертная оценка, вероятностная оценка:
источник