Современный преемник исследовательского анализа данных Тьюки?

52

Я читал книгу Тьюки "Исследовательский анализ данных". Книга, написанная в 1977 году, делает упор на бумажных / карандашных методах. Есть ли более «современный» преемник, который учитывает, что теперь мы можем мгновенно строить большие наборы данных?

биофризер
источник
это должно быть сообщество вики?
richiemorrisroe
Мне не ясно, должен ли это быть CW. Там может быть нет хороших ответов; может быть один ясный выдающийся ответ; мы могли бы создать длинный список эффективных ответов. Давай посмотрим что происходит.
whuber
4
Это хороший вопрос, биофризер. Я просто хотел отметить, что есть близкие аналогии с другими методами работы. Мой фаворит, ручка и бумага EDA относится к современной статистике, как ручные инструменты к современной деревообработке. («Современное» деревообработка использует много электроинструментов, таких как настольные пилы и маршрутизаторы, которые позволяют даже новичкам получать приемлемые результаты за гораздо меньшее время. Однако эти инструменты также учитывают тысячи недостающих цифр и конечностей каждый год. Люди, которые учатся пользоваться ручными инструментами обычно учатся работать лучше и эффективнее, даже если они используют электроинструменты.)
whuber
4
Да, деревообработка - это хорошая аналогия (недостающие цифры, недостающие цифры). Смотрите также software-carpentry.org .
Денис

Ответы:

19

Самая близкая вещь - Визуализация Данных Кливленда . Речь идет об исследовательском анализе данных, о компьютерных визуализациях, о глубоких, классических.

Карлос Аккиоли
источник
2
То же самое относится и к книге «Элементы отображения данных » того же автора. Купить их обоих; они оба превосходны.
Карл Ове Хуфтхаммер
7

Интерактивная графика для анализа данных: мне нравятся принципы и примеры ; В описании книги говорится, что в нем «обсуждается анализ поисковых данных (EDA) и как интерактивные графические методы могут помочь получить понимание, а также генерировать новые вопросы и гипотезы из наборов данных».

Аарон - Восстановить Монику
источник
4

Стоит упомянуть исследование Рональда Пирсона « Данные в области машиностроения, науки и медицины» . Похоже, что его основной целевой аудиторией являются ученые, которые не боятся немного математики и хотят знать больше статистики. Это довольно большая группа, и одна хорошо представлена ​​здесь. Это немного странно и необычно, но оно охватывает много вопросов и содержит много разумных советов. Это не Туки, в том смысле, что он предлагает много новых идей, но это может быть полезным для изучения, даже если вы думаете, что это немного неправильно.

Эта книга, кажется, привлекла очень мало внимания, вполне возможно, потому что она очень дорогая, явно не подходит в качестве текста курса и пока доступна только в твердом переплете. Но он интеллектуален и читабелен и свободен от мусора современных вводных учебников (страниц и страниц элементарных упражнений, глупых иконок, бесплатных фотографий счастливых молодых людей, суетливого макета с коробками и т. Д.).

Ник Кокс
источник
3

Также интерактивная и динамическая графика для анализа данных: с примерами с использованием R и GGobi, Cook и Swayne

Это две главы, общедоступные в Интернете, которые описывают процесс анализа данных и обработки пропущенных значений. Скоро выйдет новая книга Энтони Анвина.

Дайан Кук
источник
0

Еще пара хороших книг для чтения - « Красивая визуализация» и «Красивые данные». Это отредактированные книги, есть удивительно хорошие примеры изучения данных с помощью графиков и некоторые совершенно ужасные главы.

Еще одна книга, в которой есть несколько хороших примеров использования ggplot2, - новая книга Уинстона Чанга.

Дайан Кук
источник
1
Я просто хочу перепроверить, Ди, на случай, если вкралась тонкая опечатка: возможно, ты хотел написать «привлекательный» вместо «ужасающий»? Хотя оба имеют смысл в этом контексте, появление последнего - без каких-либо дополнительных объяснений - скорее сюрприз!
whuber
2
Ужасно было правильно - это смешанная сумка - часто редактируются тома
Дайан Кук
Я удивлен этими рекомендациями. Я нашел обе книги в основном разочаровывающими (долго на болтовне, мало на графике). К сожалению, О'Рейли, с которым я впервые столкнулся как издатель потрясающе хороших книг по Unix, похоже, имеет очень неравномерный контроль качества книг по чему-либо даже отдаленно статистическому.
Ник Кокс
Мне нравятся обе книги, и я действительно чувствую, что они вносят существенный вклад. У Уинстона Чанга есть много базовых деталей о графике с помощью ggplot2. Это хорошая ссылка для начинающих. Это не говорит вам много о том, почему вы сделали эти заговоры, но большинство из них имеет смысл для этой цели, из частей, которые я прочитал. У Beautiful Visualization есть несколько очень впечатляющих глав, посвященных таким сложным проблемам, как визуализация Википедии, массивных данных, множество сложностей, и она проходит через процесс мышления / решения, принятые для составления сюжетов.
Дайан Кук
На всякий случай мой комментарий неоднозначен: я имел в виду «красивые» книги. Книга Уинстона Чанга хороша и полезна.
Ник Кокс
0

Я думаю о Понимании надежного и исследовательского анализа Хоаглина, Мостеллера и Тьюки и сопутствующего тома по Изучению таблиц данных и форм как технического продолжения EDA. Я также вижу анализ данных и регрессию, второй курс статистики Мостеллера и Тьюки, как продолжение EDA. Различные книги Кливленда, упомянутые выше, являются сокровищами.

SJC
источник