Книги о «науке» в науке о данных? [закрыто]

26

Какие книги о науке и математике стоят за наукой о данных? Такое ощущение, что многие книги по науке о данных являются учебными пособиями по программированию и не затрагивают такие вещи, как процессы генерации данных и статистический вывод. Я уже могу кодировать, что я слаба по математике / статистике / теории за то, что я делаю.

Если я готов записать 1000 долларов на книги (около 10 книг ... вздох), что я могу купить?

Примеры: категориальный анализ данных Agresti , линейные смешанные модели для продольных данных и т. Д. И т. Д.

Антон
источник
Задание о «хороших» книгах привлечет основанные на мнении ответы, и это не по теме. Помеченные.
Spacedman
3
Я изменил это, так что я просто ищу книги. Ничего основанного на мнении.
Антон
Это написано Статистика :) Придерживайтесь чего-то прагматичного, которое фокусируется на прогнозе, а не на умозаключении. Оба элемента статистического обучения и введение в статистическое обучение находятся в списках большинства людей.
Дирк Eddelbuettel
Я пока не могу добавить комментарий, но только FYI ESL доступен бесплатно онлайн в формате pdf
idclark
1
Я думаю, что этот вопрос должен быть помечен как вики сообщества.
Шагун Содхани

Ответы:

21

Вводная:

Копать глубже:

Некоторые особые интересные примеры:

Более широкое руководство работает по машинному обучению (не совсем то, что вы просили, но для полноты):

Бонусная бумага:

Def_Os
источник
2
+1 за бонусную бумагу. Отличное
чтиво
13

Если бы я только мог порекомендовать вам одну, это были бы: Элементы статистического обучения и прогнозирования Хасти, Тибширани и Фридмана. Это обеспечивает математику / статистику позади многих обычно используемых методов в науке о данных.

Для байесовских методов отлично подходит байесовский анализ данных Гельмана, Карлина, Стерна, Дансона, Вехтари и Рубина.

Статистический вывод Казеллы и Бергера - хороший учебник для выпускников по теоретическим основам статистики. Эта книга требует довольно высокого уровня комфорта по математике (теория вероятностей основана на теории мер, которую нетривиально понять).

Что касается процессов генерации данных, у меня нет рекомендации для книги. Что я могу сказать, так это то, что хорошее понимание допущений использованных методов и обеспечение того, чтобы данные были собраны или созданы таким образом, чтобы не нарушать эти допущения, имеют большое значение для хорошего анализа.

Кристофер Лоуден
источник
7

Другие ответы рекомендовали хороший набор книг по математике, стоящей за наукой о данных. Но, как вы упомянули, не только математика и такие виды деятельности, как сбор данных и вывод данных, имеют свои собственные правила и теории, даже если они не такие строгие, как математические основы (пока).

В качестве части этих тезисов я предлагаю книгу « Красивые данные: истории позади элегантных решений для данных», в которой содержится двадцать тематических исследований, таких как главы, написанные людьми, действительно занимающимися проблемами анализа данных в реальном мире. Он не содержит никакой математики, но исследует такие области, как сбор данных, поиск практических способов использования данных в анализе, масштабирование и выбор наилучших решений.

Другая действительно интересная книга - « Мышление с данными: как превратить информацию в понимание» , которая также не является технической (= учебник по программированию), но охватывает важные темы о том, как действительно использовать силу науки о данных при принятии решений и в реальных проблемах.

Амир Али Акбари
источник
7

Мне нравятся предложения Амира Али Акбари, и я добавлю несколько моих собственных, сосредоточив внимание на темах и навыках, которые недостаточно освещены в большинстве книг по машинному обучению и анализу данных, которые посвящены математике и / или программированию.

Очистка данных:

Байесовский анализ данных (альтернатива тестированию на значение нулевой гипотезы в стиле Фишера):

Вывод перед лицом неопределенности, неполноты, противоречий, двусмысленности, неточности, невежества и т. Д .:

Эксперименты:

Моделирование:

Экспертная оценка, вероятностная оценка:

MrMeritology
источник