Вопросы с тегом «data-mining»

9
Рассчитать кривую ROC для данных

Итак, у меня есть 16 испытаний, в которых я пытаюсь идентифицировать человека по биометрической характеристике, используя расстояние Хэмминга. Мой порог установлен на 3,5. Мои данные ниже, и только пробная версия 1 является истинным положительным результатом: Trial Hamming Distance 1 0.34 2 0.37 3...

9
Начало работы с бикластером

Я проводил некоторые случайные интернет-исследования бикластеров. (Я читал статью в вики несколько раз.) Пока что кажется, что существует несколько определений или стандартной терминологии. Мне было интересно, есть ли какие-нибудь стандартные документы или книги, которые должен прочитать любой, кто...

9
Априорный алгоритм на простом английском?

Я прочитал вики статью об Априори. У меня проблемы с пониманием чернослива и шага соединения. Может кто-нибудь объяснить мне, как алгоритм Apriori работает в простых терминах (таких, что новичок, как я, может легко понять)? Будет хорошо, если кто-то объяснит пошаговый процесс, связанный с этим....

9
Как быстро выбрать важные переменные из очень большого набора данных?

У меня есть набор данных с около 2000 двоичных переменных / 200 000 строк, и я пытаюсь предсказать одну двоичную зависимую переменную. Моя главная цель на данном этапе - не получить точность прогноза, а скорее определить, какие из этих переменных являются важными предикторами. Я хотел бы уменьшить...

9
Что я могу сделать, кроме корреляции Пирсона?

Проверяя, были ли две переменные коррелированными, я заметил, что применение корреляции Пирсона позволило получить числа, равные 0,1, что указывает на отсутствие корреляции. Что я могу сделать, чтобы усилить это утверждение? Набор данных (подмножество из-за ограничений публикации), на который я...

9
Удалить дубликаты из тренировочного набора для классификации

Допустим, у меня есть куча строк для задачи классификации: Икс1, . , , ИксN, YX1,...XN,YX_1, ... X_N, Y Где - признаки / предикторы, а - класс, к которому относится комбинация признаков строки. YИкс1, . , , , XNX1,...,XNX_1, ..., X_NYYY Многие комбинации функций и их классы повторяются в наборе...

9
Понимание и применение анализа настроений

Мне только что поручили проект проведения анализа настроений для некоторых коллекций документов. По словам Гуглинга, появилось много исследований, связанных с настроениями. Мои вопросы: Каковы основные методы / алгоритмы анализа настроений в области машинного обучения и статистического анализа?...

9
Использование параметра Gamma с машинами опорных векторов

При использовании libsvmпараметр является параметром для функции ядра. Его значение по умолчанию установлено какγγ\gammaγ= 1количество функций.γзнак равно1количество функций.\gamma = \frac{1}{\text{number of features.}} Существуют ли теоретические рекомендации по настройке этого параметра помимо...

9
Определение крупнейшего участника в группе

Я не знаю много о статистике, так что терпите меня. Допустим, у меня есть набор из 1000 рабочих. Я хочу выяснить, кто самый трудный работник, но я могу измерить только объем работы, выполняемой группами по 1-100 человек за час работы. Предполагая, что каждый работник всегда выполняет примерно...

9
Помогает ли предварительная кластеризация построить лучшую прогностическую модель?

Для задачи моделирования оттока я рассматривал: Вычислить k кластеров для данных Постройте k моделей для каждого кластера индивидуально. Основанием для этого является то, что нечего доказывать, что совокупность подписчиков однородна, поэтому разумно предположить, что процесс генерирования данных...

9
Использование инструментов анализа текста / естественного языка для эконометрики

Я не уверен, является ли этот вопрос полностью уместным здесь, если нет, пожалуйста, удалите. Я аспирант по экономике. Для проекта, который исследует проблемы социального страхования, у меня есть доступ к большому количеству отчетов об административных делах (> 200 тыс.), Которые касаются оценки...

9
Выбор значения k для анализа обнаружения локального фактора выброса (LOF)

У меня есть набор трехмерных данных, и я пытаюсь использовать локальный анализ коэффициента выбросов, чтобы определить наиболее уникальные или странные значения. Как определить значение k для использования в анализе LOF? Я понимаю, что определяет значение k, и поэтому я не удивлен, что вижу...

9
Улавливают ли деревья CART взаимодействия между предикторами?

В этой статье утверждается, что в CART, поскольку двоичное разбиение выполняется в одной ковариате на каждом шаге, все разбиения являются ортогональными и, следовательно, взаимодействия между ковариатами не рассматриваются. Тем не менее, многие очень серьезные ссылки утверждают, напротив, что...

9
Оценка ошибки из пакета для повышения?

В Случайном Лесу каждое дерево растет параллельно на уникальной выборке данных Boostrap. Поскольку ожидается, что каждая выборка бустрапа будет содержать около 63% уникальных наблюдений, это оставляет примерно 37% наблюдений, которые можно использовать для тестирования дерева. Теперь, кажется , что...