Вопросы с тегом «multidimensional-scaling»

Техника, которая отображает наблюдаемые или вычисленные (несоответствия) между объектами на расстояниях в низкоразмерном пространстве (обычно евклидовом). Таким образом, он создает измерения для данных; объекты могут быть построены и концептуализированы в этих измерениях

52
Выполнить нормализацию объекта до или в рамках валидации модели?

Обычной хорошей практикой в ​​машинном обучении является нормализация характеристик или стандартизация данных переменных предиктора, вот и все, центрируйте данные, вычитая среднее значение, и нормализуйте его, деля на дисперсию (или стандартное отклонение тоже). Для самодостаточности и, насколько я...

40
Нормализация и стандартизация данных в нейронных сетях

Я пытаюсь предсказать результат сложной системы, используя нейронные сети (ИНС). Исходные (зависимые) значения находятся в диапазоне от 0 до 10000. Разные входные переменные имеют разные диапазоны. Все переменные имеют примерно нормальное распределение. Я рассматриваю разные варианты...

30
следует ли изменять масштаб индикатора / двоичных / фиктивных предикторов для LASSO

Для LASSO (и других процедур выбора модели) важно изменить масштаб предикторов. Общая рекомендация я следую просто использовать 0, 1 среднее стандартное отклонение нормализации для непрерывных переменных. Но что тут делать с чайниками? Например, некоторые прикладные примеры из той же (отличной)...

21
T-SNE против MDS

В последнее время я читал некоторые вопросы о t-SNE ( t-распределенное стохастическое вложение соседей ), а также посетил некоторые вопросы о MDS ( многомерном масштабировании ). Они часто используются аналогично, поэтому было бы неплохо задать этот вопрос, поскольку здесь есть много вопросов по...

19
Существуют ли версии t-SNE для потоковой передачи данных?

Мое понимание t-SNE и приближения Барнса-Хата заключается в том, что все точки данных необходимы для того, чтобы все силовые взаимодействия могли быть рассчитаны одновременно, и каждая точка могла быть скорректирована на 2-й (или более низкой размерности) карте. Существуют ли версии t-sne, которые...

18
Какова роль МДС в современной статистике?

Недавно я столкнулся с многомерным масштабированием. Я пытаюсь лучше понять этот инструмент и его роль в современной статистике. Итак, вот несколько руководящих вопросов: На какие вопросы он отвечает? Какие исследователи часто заинтересованы в его использовании? Существуют ли другие статистические...

14
RandomForest - интерпретация сюжета MDS

Я использовал randomForest для классификации 6 поведений животных (например, стоя, ходьбы, плавания и т. Д.) На основе 8 переменных (различные позы тела и движения). MDSplot в пакете randomForest дает мне этот вывод, и у меня возникают проблемы с интерпретацией результата. Я сделал PCA на тех же...

12
Выполнение PCA только с дистанционной матрицей

Я хочу объединить массивный набор данных, для которого у меня есть только попарные расстояния. Я реализовал алгоритм k-medoids, но его запуск занимает слишком много времени, поэтому я хотел бы начать с уменьшения масштабов моей проблемы путем применения PCA. Тем не менее, единственный способ,...

11
Визуализация многомерных данных (БИС) в 2D

Я использую скрытое семантическое индексирование, чтобы найти сходство между документами ( спасибо, JMS! ) После уменьшения размеров я попытался использовать кластеризацию k-средних для группировки документов в кластеры, что очень хорошо работает. Но я хотел бы пойти немного дальше и...

11
Как спроектировать многомерное пространство в двухмерную плоскость?

У меня есть набор точек данных в N-мерном пространстве. Кроме того, у меня также есть центроид в этом же N-мерном пространстве. Существуют ли какие-либо подходы, которые могут позволить мне проецировать эти точки данных в двумерное пространство, сохраняя информацию об их относительном расстоянии в...

9
Нормализация входа для нейронов ReLU

Согласно «Эффективному Backprop» ЛеКуна и др. (1998), хорошей практикой является нормализация всех входных данных таким образом, чтобы они центрировались вокруг 0 ​​и лежали в диапазоне максимальной второй производной. Так, например, мы бы использовали [-0,5,0,5] для функции «Тан». Это должно...

9
Масштабируемое уменьшение размера

Учитывая постоянное число функций, t-SNE Барнса-Хата имеет сложность , случайные проекции и PCA имеют сложность что делает их «доступными» для очень больших наборов данных.O ( n logн )О(Nжурнал⁡N)O(n\log n)O ( n )О(N)O(n) С другой стороны, методы, основанные на многомерном масштабировании, имеют...