Я играю с набором данных о раке молочной железы и создал диаграмму рассеяния всех атрибутов, чтобы понять, какие из них оказывают наибольшее влияние на предсказание класса malignant
(синий) benign
(красный).
Я понимаю, что строка представляет ось x, а столбец представляет ось y, но я не вижу, какие наблюдения я могу сделать относительно данных или атрибутов из этой диаграммы рассеяния.
Я ищу некоторую помощь для интерпретации / наблюдения за данными на этой диаграмме рассеяния или для использования этих визуализаций.
Код R я использовал
link <- "http://www.cs.iastate.edu/~cs573x/labs/lab1/breast-cancer-wisconsin.arff"
breast <- read.arff(link)
cols <- character(nrow(breast))
cols[] <- "black"
cols[breast$class == 2] <- "red"
cols[breast$class == 4] <- "blue"
pairs(breast, col=cols)
Ответы:
Я не уверен, поможет ли это вам, но для первичной EDA мне действительно нравится
tabplot
пакет. Дает вам хорошее представление о возможных корреляциях между вашими данными.источник
Существует ряд проблем, которые затрудняют или делают невозможным извлечение полезной информации из матрицы рассеяния.
У вас слишком много переменных отображаются вместе. Когда в матрице диаграммы рассеяния имеется много переменных, каждый график становится слишком маленьким, чтобы быть полезным. Стоит заметить, что многие участки дублируются, что приводит к пустой трате места. Кроме того, хотя вы хотите видеть каждую комбинацию, вам не нужно наносить их все вместе. Обратите внимание, что вы можете разбить матрицу диаграммы рассеяния на более мелкие блоки из четырех или пяти (число, которое полезно визуализировать). Вам просто нужно сделать несколько участков, по одному на каждый блок.
Поскольку у вас есть много данных в отдельных точках пространства , они в конечном итоге накладываются друг на друга. Таким образом, вы не можете увидеть, сколько точек в каждом месте. Есть несколько приемов, которые помогут вам справиться с этим.
Используя эти стратегии, вот несколько примеров кода R и построенных графиков:
источник
Трудно визуализировать более 3-4 измерений в одном сюжете. Одним из вариантов будет использование анализа основных компонентов (PCA) для сжатия данных и их визуализации в основных измерениях. Существует несколько различных пакетов в R (а также базовая
prcomp
функция), которые делают это синтаксически простым ( см. CRAN ); Интерпретация графиков, загрузок - это другая история, но я думаю, что она проще, чем матрица рассеяния с 10 переменными.источник