Вопросы с тегом «data-mining»

9

Итак, у меня есть 16 испытаний, в которых я пытаюсь идентифицировать человека по биометрической характеристике, используя расстояние Хэмминга. Мой порог установлен на 3,5. Мои данные ниже, и только пробная версия 1 является истинным положительным результатом: Trial Hamming Distance 1 0.34 2 0.37 3...

mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

9

Начало работы с бикластером

Я проводил некоторые случайные интернет-исследования бикластеров. (Я читал статью в вики несколько раз.) Пока что кажется, что существует несколько определений или стандартной терминологии. Мне было интересно, есть ли какие-нибудь стандартные документы или книги, которые должен прочитать любой, кто...

clustering data-mining

9

Априорный алгоритм на простом английском?

Я прочитал вики статью об Априори. У меня проблемы с пониманием чернослива и шага соединения. Может кто-нибудь объяснить мне, как алгоритм Apriori работает в простых терминах (таких, что новичок, как я, может легко понять)? Будет хорошо, если кто-то объяснит пошаговый процесс, связанный с этим....

data-mining algorithms frequentist

9

Как быстро выбрать важные переменные из очень большого набора данных?

У меня есть набор данных с около 2000 двоичных переменных / 200 000 строк, и я пытаюсь предсказать одну двоичную зависимую переменную. Моя главная цель на данном этапе - не получить точность прогноза, а скорее определить, какие из этих переменных являются важными предикторами. Я хотел бы уменьшить...

machine-learning data-mining large-data

9

Что я могу сделать, кроме корреляции Пирсона?

Проверяя, были ли две переменные коррелированными, я заметил, что применение корреляции Пирсона позволило получить числа, равные 0,1, что указывает на отсутствие корреляции. Что я могу сделать, чтобы усилить это утверждение? Набор данных (подмножество из-за ограничений публикации), на который я...

correlation data-mining pearson-r

9

Удалить дубликаты из тренировочного набора для классификации

Допустим, у меня есть куча строк для задачи классификации: Икс1, . , , ИксN, YX1,...XN,YX_1, ... X_N, Y Где - признаки / предикторы, а - класс, к которому относится комбинация признаков строки. YИкс1, . , , , XNX1,...,XNX_1, ..., X_NYYY Многие комбинации функций и их классы повторяются в наборе...

machine-learning classification data-mining logistic stratification

9

Понимание и применение анализа настроений

Мне только что поручили проект проведения анализа настроений для некоторых коллекций документов. По словам Гуглинга, появилось много исследований, связанных с настроениями. Мои вопросы: Каковы основные методы / алгоритмы анализа настроений в области машинного обучения и статистического анализа?...

machine-learning data-mining text-mining information-retrieval sentiment-analysis

9

Использование параметра Gamma с машинами опорных векторов

При использовании libsvmпараметр является параметром для функции ядра. Его значение по умолчанию установлено какγγ\gammaγ= 1количество функций.γзнак равно1количество функций.\gamma = \frac{1}{\text{number of features.}} Существуют ли теоретические рекомендации по настройке этого параметра помимо...

machine-learning svm data-mining libsvm kernel-trick

9

Определение крупнейшего участника в группе

Я не знаю много о статистике, так что терпите меня. Допустим, у меня есть набор из 1000 рабочих. Я хочу выяснить, кто самый трудный работник, но я могу измерить только объем работы, выполняемой группами по 1-100 человек за час работы. Предполагая, что каждый работник всегда выполняет примерно...

r regression data-mining

9

Помогает ли предварительная кластеризация построить лучшую прогностическую модель?

Для задачи моделирования оттока я рассматривал: Вычислить k кластеров для данных Постройте k моделей для каждого кластера индивидуально. Основанием для этого является то, что нечего доказывать, что совокупность подписчиков однородна, поэтому разумно предположить, что процесс генерирования данных...

machine-learning clustering data-mining predictive-models

9

Использование инструментов анализа текста / естественного языка для эконометрики

Я не уверен, является ли этот вопрос полностью уместным здесь, если нет, пожалуйста, удалите. Я аспирант по экономике. Для проекта, который исследует проблемы социального страхования, у меня есть доступ к большому количеству отчетов об административных делах (> 200 тыс.), Которые касаются оценки...

machine-learning data-mining econometrics text-mining natural-language

9

Выбор значения k для анализа обнаружения локального фактора выброса (LOF)

У меня есть набор трехмерных данных, и я пытаюсь использовать локальный анализ коэффициента выбросов, чтобы определить наиболее уникальные или странные значения. Как определить значение k для использования в анализе LOF? Я понимаю, что определяет значение k, и поэтому я не удивлен, что вижу...

data-mining outliers

9

Улавливают ли деревья CART взаимодействия между предикторами?

В этой статье утверждается, что в CART, поскольку двоичное разбиение выполняется в одной ковариате на каждом шаге, все разбиения являются ортогональными и, следовательно, взаимодействия между ковариатами не рассматриваются. Тем не менее, многие очень серьезные ссылки утверждают, напротив, что...

machine-learning classification data-mining cart

9

Оценка ошибки из пакета для повышения?

В Случайном Лесу каждое дерево растет параллельно на уникальной выборке данных Boostrap. Поскольку ожидается, что каждая выборка бустрапа будет содержать около 63% уникальных наблюдений, это оставляет примерно 37% наблюдений, которые можно использовать для тестирования дерева. Теперь, кажется , что...

machine-learning cross-validation data-mining random-forest boosting