Вопросы с тегом «high-dimensional»

Относится к большому количеству функций или размеров (переменных) данных. (Для большого количества точек данных используйте тег [big-data]; если проблема заключается в большем количестве переменных, чем данных, используйте тег [underdetermined].)

241
Почему евклидово расстояние не является хорошим показателем в больших измерениях?

Я читал, что «евклидово расстояние не является хорошим расстоянием в больших измерениях». Я думаю, что это утверждение как-то связано с проклятием размерности, но что именно? Кроме того, что такое «большие размеры»? Я применял иерархическую кластеризацию, используя евклидово расстояние со 100...

92
Объясните ребенку «Проклятие размерности»

Я много раз слышал о проклятии размерности, но почему-то до сих пор не могу понять идею, все туманно. Может ли кто-нибудь объяснить это наиболее интуитивно понятным способом, как вы объясните это ребенку, чтобы я (и другие, сбитые с толку, как я) могли понять это навсегда? РЕДАКТИРОВАТЬ: Теперь...

54
Лучший алгоритм PCA для огромного количества функций (> 10K)?

Ранее я спрашивал об этом в StackOverflow, но кажется, что это может быть более уместным, учитывая, что он не получил никаких ответов по SO. Это своего рода на пересечении статистики и программирования. Мне нужно написать код для PCA (Анализ основных компонентов). Я просмотрел известные алгоритмы и...

36
Как оценить параметр усадки в лассо или гребень регрессии с> 50K переменных?

Я хочу использовать регрессию Лассо или Риджа для модели с более чем 50 000 переменных. Я хочу сделать это, используя программный пакет в R. Как я могу оценить параметр усадки ( )?λλ\lambda Редактирование: Вот точка, до которой я добрался: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0),...

23
Следует ли считать уменьшение размерности для визуализации «закрытой» проблемой, решаемой с помощью t-SNE?

Я много читал об алгоритме sne для уменьшения размерности. Я очень впечатлен производительностью на «классических» наборах данных, таких как MNIST, где достигается четкое разделение цифр ( см. Оригинальную статью ):Ttt Я также использовал его, чтобы визуализировать функции, которым научилась...

20
Почему LASSO не находит мою идеальную пару предикторов в высокой размерности?

Я провожу небольшой эксперимент с регрессией LASSO в R, чтобы проверить, сможет ли она найти идеальную пару предикторов. Пара определяется следующим образом: f1 + f2 = исход Результатом здесь является предопределенный вектор, называемый «возраст». F1 и f2 создаются путем взятия половины вектора...

18
Должны ли данные центрироваться + масштабироваться перед применением t-SNE?

Некоторые из функций моих данных имеют большие значения, в то время как другие функции имеют гораздо меньшие значения. Необходимо ли центрировать + масштабировать данные перед применением t-SNE, чтобы предотвратить смещение в сторону больших значений? Я использую реализацию Python...

17
Существует ли «проклятие размерности» в реальных данных?

Я понимаю, что такое «проклятие размерности», и я выполнил некоторые задачи по оптимизации больших размеров и знаю проблему экспоненциальных возможностей. Однако я сомневаюсь, существует ли «проклятие размерности» в большинстве данных реального мира (ну, давайте на минуту отложим изображения или...

16
Высокомерная регрессия: почему

Я пытаюсь прочитать об исследованиях в области регрессии больших размеров; когда больше , то есть . Похоже, термин часто встречается в терминах скорости сходимости для оценок регрессии.pppnnnp>>np>>np >> nlogp/nlog⁡p/n\log p/n Например, здесь уравнение (17) говорит, что для подгонки...

15
Влияет ли проклятие размерности на некоторые модели больше, чем на другие?

Места, которые я читал о проклятии размерности, объясняют его в первую очередь в связи с kNN и линейными моделями в целом. Я регулярно вижу топ-рейтингов в Kaggle, использующих тысячи функций в наборе данных, который вряд ли имеет 100 тыс. Точек данных. Они в основном используют Boosted деревья и...

13
СПС по многомерным текстовым данным до классификации случайных лесов?

Имеет ли смысл делать PCA перед проведением рандомизации леса? Я имею дело с многомерными текстовыми данными, и я хочу сделать сокращение возможностей, чтобы помочь избежать проклятия размерности, но разве Случайные Леса уже к некоторому уменьшению размеров...

11
Является ли множественная линейная регрессия в 3 измерениях плоскостью наилучшего соответствия или линией наилучшего соответствия?

Наш проф не входит в математику или даже геометрическое представление множественной линейной регрессии, и это меня немного смущает. С одной стороны, это все еще называется множественной линейной регрессией, даже в более высоких измерениях. С другой стороны, если мы, например , Y = B 0 + B 1 X 1 + Ь...

11
Проклятие размерности: классификатор кНН

Я читаю книгу Кевина Мерфи: Машинное обучение - вероятностная перспектива. В первой главе автор объясняет проклятие размерности, и есть часть, которую я не понимаю. В качестве примера автор заявляет: Рассмотрим входы, равномерно распределенные по D-мерному единичному кубу. Предположим, что мы...

10
Является ли теорема об относительном контрасте от Beyer et al. статья: «Об удивительном поведении дистанционных метрик в многомерном пространстве» вводит в заблуждение?

Это часто упоминается, когда упоминается проклятие размерности и идет (формула справа называется относительным контрастом) Итd→ ∞вар ( | | Xd| |КЕ[ | | Иксd| |К]) =0,то: DМаксимумКd- DминКdDминКd→ 0Итd→∞вар(||Иксd||КЕ[||Иксd||К])знак равно0,тогда:DМаксимумdК-DминdКDминdК→0 \lim_{d\rightarrow...

9
PCA слишком медленный, когда оба n, p большие: альтернативы?

Настройка проблемы У меня есть данные (изображения) высокой размерности (4096), которые я пытаюсь визуализировать в 2D. С этой целью я использую t-sne способом, подобным следующему примеру кода Karpathy . Документация Scikit-Learn рекомендует использовать PCA, чтобы сначала уменьшить размерность...

9
Найти близкие пары в очень высокомерном пространстве с разреженными векторами

У меня есть (~ миллион) векторов признаков. Есть (~ миллион) бинарных объектов, но в каждом векторе только (~ тысяча) из них будет , остальные - . Я ищу пары векторов, которые имеют как минимум (~ сто) общих признаков ( в обоих). Количество таких пар имеет величину, аналогичную (~...

9
Обнаружены высокоразмерные, коррелированные данные и основные особенности / ковариаты; тестирование нескольких гипотез?

У меня есть набор данных с около 5000 часто коррелированных признаков / ковариат и двоичным ответом. Данные были переданы мне, я не собирал их. Я использую Лассо и повышение градиента для построения моделей. Я использую повторную вложенную перекрестную проверку. Я сообщаю о самых больших...

9
Как детям удается объединить своих родителей в прогнозе PCA набора данных GWAS?

Возьмите 20 случайных точек в 10000-мерном пространстве с каждой координатой из N( 0 , 1 )N(0,1)\mathcal N(0,1) . Разделите их на 10 пар («пары») и добавьте среднее значение каждой пары («ребенок») к набору данных. Затем проведите PCA по полученным 30 точкам и постройте график PC1 против PC2....

9
Оценка неопределенности в задачах многомерного вывода без выборки?

Я работаю над проблемой многомерного вывода (около 2000 параметров модели), для которой мы можем надежно выполнить оценку MAP, найдя глобальный максимум логарифмического аппроксимации, используя комбинацию градиентной оптимизации и генетического алгоритма. Я очень хотел бы иметь возможность сделать...