Вопросы с тегом «machine-learning»

9
Расчет соотношения выборочных данных, используемых для подбора модели / обучения и проверки

Предоставил размер выборки «N», который я планирую использовать для прогнозирования данных. Каковы некоторые из способов подразделить данные так, чтобы я использовал некоторые из них для установления модели, а остальные данные для проверки модели? Я знаю, что нет черно-белого ответа на этот вопрос,...

9
Изучение структуры задачи иерархического подкрепления

Я изучал проблемы обучения с иерархическим подкреплением, и хотя во многих статьях предлагаются алгоритмы для изучения политики, все они, похоже, предполагают, что заранее знают структуру графа, описывающую иерархию действий в домене. Например, метод MAXQ для обучения иерархическому усилению от...

9
Рассчитать кривую ROC для данных

Итак, у меня есть 16 испытаний, в которых я пытаюсь идентифицировать человека по биометрической характеристике, используя расстояние Хэмминга. Мой порог установлен на 3,5. Мои данные ниже, и только пробная версия 1 является истинным положительным результатом: Trial Hamming Distance 1 0.34 2 0.37 3...

9
Регрессия наименьшего угла сохраняет корреляции монотонно убывающими и связанными?

Я пытаюсь решить проблему для наименьшего угла регрессии (LAR). Это проблема 3,23 на странице 97 из Гесте и др., Элементы статистического обучения, второй. редактор (5-я печать) . Рассмотрим регрессионную проблему со всеми переменными и ответом, имеющими среднее значение ноль и стандартное...

9
Тестирование на стабильность во временных рядах

Существует ли стандартный (или лучший) метод для тестирования, когда данный временной ряд стабилизировался? Некоторая мотивация У меня есть стохастическая динамическая система, которая выводит значение на каждом временном шаге . Эта система имеет некоторое переходное поведение до временного шага и...

9
Как быстро выбрать важные переменные из очень большого набора данных?

У меня есть набор данных с около 2000 двоичных переменных / 200 000 строк, и я пытаюсь предсказать одну двоичную зависимую переменную. Моя главная цель на данном этапе - не получить точность прогноза, а скорее определить, какие из этих переменных являются важными предикторами. Я хотел бы уменьшить...

9
Лучший способ обработки несбалансированного мультиклассового набора данных с помощью SVM

Я пытаюсь построить модель предсказания с SVM на довольно несбалансированных данных. Мои метки / выходные данные имеют три класса, положительный, нейтральный и отрицательный. Я бы сказал, что положительный пример составляет около 10–20% моих данных, нейтральный - около 50–60%, а отрицательный -...

9
Когда выбрать PCA против LSA / LSI

Вопрос: Существуют ли общие рекомендации относительно характеристик входных данных, которые можно использовать для выбора между применением PCA и LSA / LSI? Краткое описание PCA против LSA / LSI: Принципиальный компонентный анализ (PCA) и скрытый семантический анализ (LSA) или скрытое семантическое...

9
Удалить дубликаты из тренировочного набора для классификации

Допустим, у меня есть куча строк для задачи классификации: Икс1, . , , ИксN, YX1,...XN,YX_1, ... X_N, Y Где - признаки / предикторы, а - класс, к которому относится комбинация признаков строки. YИкс1, . , , , XNX1,...,XNX_1, ..., X_NYYY Многие комбинации функций и их классы повторяются в наборе...

9
Создание марковской модели максимальной энтропии из существующего классификатора максимальной энтропии с несколькими входами

Я заинтригован концепцией модели максимальной энтропии Маркова (MEMM), и я думаю об использовании ее для тегера части речи (POS). В настоящее время я использую традиционный классификатор Maximum Entropy (ME), чтобы пометить каждое отдельное слово. При этом используется ряд функций, в том числе два...

9
Как выполнить выбор переменных генетического алгоритма в R для входных переменных SVM?

Я использую пакет kernlab в R для создания SVM для классификации некоторых данных. SVM работает хорошо, поскольку он обеспечивает «предсказания» с приличной точностью, однако мой список входных переменных больше, чем мне бы хотелось, и я не уверен относительно относительной важности различных...

9
Понимание и применение анализа настроений

Мне только что поручили проект проведения анализа настроений для некоторых коллекций документов. По словам Гуглинга, появилось много исследований, связанных с настроениями. Мои вопросы: Каковы основные методы / алгоритмы анализа настроений в области машинного обучения и статистического анализа?...

9
Классификация с одним доминирующим предиктором

У меня есть проблема классификации ( class) порядка 100 реальных предикторов, один из которых, по-видимому, обладает гораздо большей объяснительной силой, чем любой другой. Я хотел бы углубиться в эффекты других переменных. Однако стандартные методы машинного обучения (случайные леса, SVM и т. Д.)...

9
Ожидаемая наилучшая производительность возможна для набора данных

Скажем, у меня есть простая проблема машинного обучения, такая как классификация. С некоторыми показателями в зрении или распознавании звука я, как человек, являюсь очень хорошим классификатором. Поэтому у меня есть интуиция о том, насколько хорошим может стать классификатор. Но с большим...

9
Параметрический, полупараметрический и непараметрический бутстрап для смешанных моделей

Следующие прививки взяты из этой статьи . Я новичок в начальной загрузке и пытаюсь реализовать параметрическую, полупараметрическую и непараметрическую загрузку начальной загрузки для линейной смешанной модели с R bootпакетом. Код R Вот мой Rкод: library(SASmixed) library(lme4) library(boot)...

9
Динамически настраиваемая архитектура NN: изобретать ненужное?

Я начинаю свое путешествие в аспирантуру, и конечная цель, которую я поставил перед собой, - это разработка ANN, которые бы контролировали среду, в которой они работают, и динамически адаптировали свою архитектуру к имеющейся проблеме. Очевидным следствием является временность данных: если набор...

9
Как сравнить наблюдаемые и ожидаемые события?

Предположим, у меня есть одна выборка частот из 4 возможных событий: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 и у меня есть ожидаемые вероятности того, что мои события произойдут: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 С суммой наблюдаемых частот моих четырех событий (18) я могу рассчитать ожидаемые частоты...

9
Использование параметра Gamma с машинами опорных векторов

При использовании libsvmпараметр является параметром для функции ядра. Его значение по умолчанию установлено какγγ\gammaγ= 1количество функций.γзнак равно1количество функций.\gamma = \frac{1}{\text{number of features.}} Существуют ли теоретические рекомендации по настройке этого параметра помимо...

9
Помогает ли предварительная кластеризация построить лучшую прогностическую модель?

Для задачи моделирования оттока я рассматривал: Вычислить k кластеров для данных Постройте k моделей для каждого кластера индивидуально. Основанием для этого является то, что нечего доказывать, что совокупность подписчиков однородна, поэтому разумно предположить, что процесс генерирования данных...