У меня возникают трудности с выбором правильного способа визуализации данных. Допустим, у нас есть книжные магазины , в которых продаются книги , и у каждой книги есть хотя бы одна категория .
Для книжного магазина, если мы посчитаем все категории книг, мы получим гистограмму, которая показывает количество книг, которые попадают в определенную категорию для этого книжного магазина.
Я хочу визуализировать поведение книжного магазина, я хочу видеть, предпочитают ли они категорию по сравнению с другими категориями. Я не хочу видеть, одобряют ли они все вместе фантастику, но я хочу видеть, относятся ли они к каждой категории одинаково или нет.
У меня ~ 1 млн книжных магазинов.
Я подумал о 4 методах:
Пример данных, показать только 500 гистограмм книжного магазина. Показать их на 5 отдельных страницах с использованием сетки 10х10. Пример сетки 4х4:
То же, что № 1 Но на этот раз сортируйте значения по оси x в соответствии с их счетом desc, поэтому, если есть предпочтение, это будет легко увидеть.
Представьте себе, что вы помещаете гистограммы в # 2 вместе, как колоду, и показывает их в 3D. Что-то вроде этого:
Вместо того, чтобы использовать третью ось, выбирающую цвета для представления цветов, используйте тепловую карту (2D-гистограмму):
если книжные магазины обычно предпочитают одни категории другим, это будет отображаться в виде хорошего градиента слева направо.
Есть ли у вас какие-либо другие идеи / инструменты визуализации для представления нескольких гистограмм?
Ответы:
Как вы узнали, нет простых ответов на ваш вопрос!
Я предполагаю, что вы заинтересованы в поиске странных или разных книжных магазинов? Если это так, то вы можете попробовать что-то вроде PCA ( более подробную информацию см. На странице анализа кластера в Википедии ).
Чтобы дать вам представление, рассмотрим этот пример. У вас есть 26 книжных магазинов (с именами A, B, .. Z). Все книжные магазины похожи, кроме:
Основной компонент сюжета выделяет эти магазины для дальнейшего изучения.
Вот пример кода R:
Это дает следующий сюжет:
Сюжет PCA http://img265.imageshack.us/img265/7263/tmplx.jpg
Заметь:
Другие возможности
Вы также можете посмотреть на GGobi , я никогда не использовал его, но выглядит интересно.
источник
Я хотел бы предложить что-то, что не имеет определенного имени (возможно, «параллельный сюжет») и выглядит так:
По сути, все графики для всех книжных магазинов вычерчиваются в виде точек над категориями, перечисленными на оси х, и связывают результаты из каждого книжного магазина с линией. Тем не менее, это может быть слишком запутанным для 1М линий, хотя. Концепция исходит от GGobi, который уже упоминался csgillespie.
источник