Вопросы с тегом «machine-learning»

10
Обнаружение аномалий: какой алгоритм использовать?

Контекст: я разрабатываю систему, которая анализирует клинические данные для фильтрации неправдоподобных данных, которые могут быть опечатками. Что я сделал до сих пор: Для количественной оценки правдоподобия до сих пор я пытался нормализовать данные, а затем вычислить значение правдоподобия для...

10
Интерпретация площади под кривой PR

В настоящее время я сравниваю три метода, и в качестве метрик я использую точность, auROC и auPR. И у меня есть следующие результаты: Метод А - согласно: 0,75, auROC: 0,75, AuPR: 0,45 Метод B - согласно: 0,65, auROC: 0,55, AuPR: 0,40 Метод C - согласно: 0,55, auROC: 0,70, AuPR: 0,65 У меня хорошее...

10
Каковы хорошие показатели для оценки качества соответствия PCA, чтобы выбрать количество компонентов?

Что является хорошим показателем для оценки качества анализа главных компонентов (PCA)? Я выполнил этот алгоритм на наборе данных. Моей целью было уменьшить количество функций (информация была очень избыточной). Я знаю, что процент сохраняемой дисперсии является хорошим показателем того, сколько...

10
Почему людям нравятся гладкие данные?

Я должен использовать квадратное экспоненциальное ядро ​​(SE) для регрессии гауссовских процессов. Преимущества этого ядра: 1) просто: всего 3 гиперпараметра; 2) гладкое: это ядро ​​гауссово. Почему людям так нравится «гладкость»? Я знаю, что ядро ​​Гаусса бесконечно дифференцируемо, но так ли это...

10
Как выбрать размеры набора для обучения, перекрестной проверки и тестирования для данных небольшого размера?

Предположим, у меня небольшой размер выборки, например, N = 100, и два класса. Как выбрать размеры обучения, перекрестной проверки и тестового набора для машинного обучения? Я бы интуитивно выбрал Размер тренировочного набора 50 Размер набора для перекрестной проверки 25, и Размер теста как 25. Но,...

10
Обнаружение аномалий временных рядов с помощью Python

Мне нужно реализовать обнаружение аномалий в нескольких наборах данных временных рядов. Я никогда не делал этого раньше и надеялся на некоторые советы. Я очень хорошо разбираюсь в python, поэтому я бы предпочел, чтобы в нем было реализовано решение (большая часть моего кода - это python для других...

10
Анализ временных рядов и машинное обучение?

Просто общий вопрос. Если у вас есть данные временных рядов, когда лучше использовать методы временных рядов (иначе, ARCH, GARCH и т. Д.), А не методы машинного / статистического обучения (KNN, регрессия)? Если есть аналогичный вопрос, который существует на перекрестном утверждении, пожалуйста,...

10
VC-размерность k-ближайшего соседа

Каково VC-измерение алгоритма k-ближайшего соседа, если k равно количеству используемых тренировочных точек? Контекст: этот вопрос был задан в ходе курса, который я взял, и ответа было 0. Я, однако, не понимаю, почему это так. Моя интуиция заключается в том, что VC-Dimension должно быть 1, потому...

10
Что такое предварительная подготовка и как вы обучаете нейронную сеть?

Я понимаю, что предварительная подготовка используется, чтобы избежать некоторых проблем с обычным обучением. Если я использую обратное распространение, скажем, с помощью автоматического кодера, я знаю, что у меня возникнут проблемы со временем, потому что обратное распространение идет медленно, а...

10
Случайный лес против Adaboost

В разделе 7 статьи « Случайные леса» (Брейман, 1999) автор высказывает следующую гипотезу: «Adaboost - это случайный лес». Кто-нибудь доказал или опроверг это? Что было сделано, чтобы доказать или опровергнуть этот пост 1999...

10
Вложенная перекрестная проверка - чем она отличается от выбора модели с помощью kfold CV на тренировочном наборе?

Я часто вижу людей, говорящих о перекрестной проверке 5x2 как частном случае вложенной перекрестной проверки . Я предполагаю, что первое число (здесь: 5) относится к числу сгибов во внутренней петле, а второе число (здесь: 2) относится к числу сгибов во внешней петле? Итак, чем это отличается от...

10
Что такое бакетизация?

Я собирался найти четкое объяснение "сгибания" в машинном обучении без удачи. Что я понимаю до сих пор, так это то, что бекетирование аналогично квантованию в цифровой обработке сигналов, когда диапазон непрерывных значений заменяется одним дискретным значением. Это правильно? Каковы плюсы и минусы...

10
Как обучить SVM через обратное распространение?

Мне было интересно, можно ли обучить SVM (скажем, линейный, чтобы упростить задачу) с использованием обратного распространения? В настоящее время я нахожусь в затруднительном положении, потому что я могу думать только о том, чтобы записать вывод классификатора как...

10
Понимание использования логарифмов в логарифме TF-IDF

Я читал: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Но я не могу понять, почему именно формула была построена такой, какая она есть. Что я делаю Понять: iDF должен на каком-то уровне измерять, как часто термин S появляется в каждом из документов, уменьшаясь в значении по мере того, как...

10
Производная перекрестной потери энтропии в word2vec

Я пытаюсь проработать первый набор проблем из материала онлайн-курса cs224d в Стэнфорде, и у меня возникли некоторые проблемы с проблемой 3A: При использовании модели пропуска грамм word2vec с функцией прогнозирования softmax и функцией кросс-энтропийной потери мы хочу вычислить градиенты по...

10
Что подразумевается под PCA, сохраняя только большие попарные расстояния?

В настоящее время я читаю технику визуализации t-SNE, и было упомянуто, что одним из недостатков использования анализа главных компонентов (PCA) для визуализации многомерных данных является то, что он сохраняет только большие попарные расстояния между точками. Значимые точки, которые находятся...

10
Есть ли приложения, в которых SVM все еще лучше?

Алгоритм SVM довольно старый - он был разработан в 1960-х годах, но был чрезвычайно популярен в 1990-х и 2000-х годах. Это классическая (и довольно красивая) часть курсов машинного обучения. Сегодня кажется, что в медиа-обработке (изображения, звук и т. Д.) Нейронные сети полностью доминируют, в то...

10
Примеры использования RBF SVM (против логистической регрессии и случайного леса)

Машины опорных векторов с ядром радиально-базовой функции - это универсальный контролируемый классификатор. Хотя я знаю теоретические основы этих SVM и их сильные стороны, я не знаю случаев, когда они являются предпочтительным методом. Итак, существует ли класс проблем, для которых SVM RBF...

10
Предотвращение сбоя выборки по важности по Парето (PSIS-LOO)

Недавно я начал использовать перекрестную проверку сглаживания важности по Парето (PSIS-LOO), описанную в следующих статьях: Vehtari, A. & Gelman, A. (2015). Парето сгладил важность выборки. Препринт arXiv ( ссылка ). Вехтари А., Гельман А. и Габри Дж. (2016). Практическая оценка байесовской...