Многомерные данные: какие полезные методы нужно знать?

14

Из-за различных проклятий размерности точность и скорость многих из общих методов прогнозирования ухудшаются на данных большого размера. Каковы некоторые из наиболее полезных методов / уловок / эвристик, которые помогают эффективно работать с многомерными данными? Например,

  • Являются ли определенные статистические / моделирующие методы эффективными для многомерных наборов данных?
  • Можем ли мы улучшить производительность наших прогнозирующих моделей на многомерных данных, используя определенные (которые определяют альтернативные понятия расстояния) или ядра (которые определяют альтернативные понятия точечного произведения)?
  • Каковы наиболее полезные методы уменьшения размерности для многомерных данных?
ASX
источник

Ответы:

10

Это очень широкий вопрос, который, я думаю, невозможно охватить всесторонне в одном ответе. Поэтому я думаю, что было бы более полезно предоставить некоторые указатели на соответствующие ответы и / или ресурсы. Это именно то, что я сделаю, предоставив следующую информацию и мои мысли.

Прежде всего, я должен упомянуть превосходное и всеобъемлющее руководство по уменьшению размерности от Burges (2009) от Microsoft Research. Он часто затрагивает аспекты многомерных данных в монографии. Эта работа, относящаяся к уменьшению размерности как уменьшению размера , представляет теоретическое введение в проблему , предлагает таксономию методов уменьшения размерности, состоящих из проективных методов и методов моделирования многообразия , а также предоставляет обзор нескольких методов в каждой категории.

Рассмотренные методы « проективного преследования» включают независимый компонентный анализ (ICA) , анализ главных компонентов (PCA) и его вариации, такие как PCA ядра и вероятностный PCA , канонический корреляционный анализ (CCA) и вариации CCA ядра , линейный дискриминантный анализ (LDA). ) , уменьшение размера ядра (KDR) и некоторые другие. Рассмотренные методы многообразия включают в себя многомерное масштабирование (MDS) и его основной вариант MDS , Isomap , Локально линейное вложениеи графические методы, такие как собственные карты Лапласа и спектральная кластеризация . Я перечисляю большинство рассмотренных методов здесь в случае, если оригинальная публикация недоступна для вас, либо онлайн (ссылка выше), либо офлайн (ссылки).

Существует нюанс термина «всеобъемлющий» , который я применил к упомянутой выше работе. Хотя он действительно довольно всеобъемлющий, он относительный, поскольку некоторые из подходов к уменьшению размерности не обсуждаются в монографии, в частности, те, которые ориентированы на ненаблюдаемые (скрытые) переменные . Некоторые из них упоминаются, однако, со ссылками на другой источник - книгу по уменьшению размерности.

Теперь я кратко расскажу о нескольких более узких аспектах рассматриваемой темы, обратившись к моим соответствующим или связанным ответам. Что касается подходов типа ближайших соседей (NN) к многомерным данным, пожалуйста, посмотрите мои ответы здесь (я особенно рекомендую проверить статью № 4 в моем списке). Одним из последствий проклятия размерности является то, что многомерные данные часто редки . Учитывая этот факт, я считаю, что мои соответствующие ответы здесь и здесь о регрессии и PCA для разреженных и многомерных данных могут быть полезны.

Ссылки

Burges, CJC (2010). Уменьшение размеров: экскурсия. Основы и тенденции® в машинном обучении, 2 (4), 275-365. DOI: 10,1561 / 2200000002

Александр Блех
источник
0

Александр дал очень исчерпывающий ответ, но есть несколько, которые предъявляют иск очень широко:

Для уменьшения размерности используется PCA. Тем не менее, это делает только линейное преобразование, а для нелинейного уменьшения размерности - то, что вы ищете.

Проецирование данных более низкого размера в более высокое измерение может быть выполнено с использованием ядер. Вы обычно делаете это, когда ваш классификатор не может найти линейную плоскость разделения в текущем измерении, но сможет найти линейную гиперплоскость, которая разделяет классы в более высоком измерении. Ядра широко используются в SVM.

ОЗУ
источник