Вопросы с тегом «machine-learning»

9

Расчет соотношения выборочных данных, используемых для подбора модели / обучения и проверки

Предоставил размер выборки «N», который я планирую использовать для прогнозирования данных. Каковы некоторые из способов подразделить данные так, чтобы я использовал некоторые из них для установления модели, а остальные данные для проверки модели? Я знаю, что нет черно-белого ответа на этот вопрос,...

9

Изучение структуры задачи иерархического подкрепления

Я изучал проблемы обучения с иерархическим подкреплением, и хотя во многих статьях предлагаются алгоритмы для изучения политики, все они, похоже, предполагают, что заранее знают структуру графа, описывающую иерархию действий в домене. Например, метод MAXQ для обучения иерархическому усилению от...

machine-learning

9

Рассчитать кривую ROC для данных

Итак, у меня есть 16 испытаний, в которых я пытаюсь идентифицировать человека по биометрической характеристике, используя расстояние Хэмминга. Мой порог установлен на 3,5. Мои данные ниже, и только пробная версия 1 является истинным положительным результатом: Trial Hamming Distance 1 0.34 2 0.37 3...

mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

9

Регрессия наименьшего угла сохраняет корреляции монотонно убывающими и связанными?

Я пытаюсь решить проблему для наименьшего угла регрессии (LAR). Это проблема 3,23 на странице 97 из Гесте и др., Элементы статистического обучения, второй. редактор (5-я печать) . Рассмотрим регрессионную проблему со всеми переменными и ответом, имеющими среднее значение ноль и стандартное...

regression machine-learning correlation self-study

9

Тестирование на стабильность во временных рядах

Существует ли стандартный (или лучший) метод для тестирования, когда данный временной ряд стабилизировался? Некоторая мотивация У меня есть стохастическая динамическая система, которая выводит значение на каждом временном шаге . Эта система имеет некоторое переходное поведение до временного шага и...

time-series machine-learning

9

Как быстро выбрать важные переменные из очень большого набора данных?

У меня есть набор данных с около 2000 двоичных переменных / 200 000 строк, и я пытаюсь предсказать одну двоичную зависимую переменную. Моя главная цель на данном этапе - не получить точность прогноза, а скорее определить, какие из этих переменных являются важными предикторами. Я хотел бы уменьшить...

machine-learning data-mining large-data

9

Выбор параметров SVM

Есть ли лучшие альтернативные методы для выбора C и Gamma, которые дают лучшие результаты

machine-learning

9

Лучший способ обработки несбалансированного мультиклассового набора данных с помощью SVM

Я пытаюсь построить модель предсказания с SVM на довольно несбалансированных данных. Мои метки / выходные данные имеют три класса, положительный, нейтральный и отрицательный. Я бы сказал, что положительный пример составляет около 10–20% моих данных, нейтральный - около 50–60%, а отрицательный -...

machine-learning predictive-models svm unbalanced-classes

9

Когда выбрать PCA против LSA / LSI

Вопрос: Существуют ли общие рекомендации относительно характеристик входных данных, которые можно использовать для выбора между применением PCA и LSA / LSI? Краткое описание PCA против LSA / LSI: Принципиальный компонентный анализ (PCA) и скрытый семантический анализ (LSA) или скрытое семантическое...

machine-learning pca lsa

9

Удалить дубликаты из тренировочного набора для классификации

Допустим, у меня есть куча строк для задачи классификации: Икс1, . , , ИксN, YX1,...XN,YX_1, ... X_N, Y Где - признаки / предикторы, а - класс, к которому относится комбинация признаков строки. YИкс1, . , , , XNX1,...,XNX_1, ..., X_NYYY Многие комбинации функций и их классы повторяются в наборе...

machine-learning classification data-mining logistic stratification

9

Создание марковской модели максимальной энтропии из существующего классификатора максимальной энтропии с несколькими входами

Я заинтригован концепцией модели максимальной энтропии Маркова (MEMM), и я думаю об использовании ее для тегера части речи (POS). В настоящее время я использую традиционный классификатор Maximum Entropy (ME), чтобы пометить каждое отдельное слово. При этом используется ряд функций, в том числе два...

machine-learning mcmc maximum-entropy memm

9

Как выполнить выбор переменных генетического алгоритма в R для входных переменных SVM?

Я использую пакет kernlab в R для создания SVM для классификации некоторых данных. SVM работает хорошо, поскольку он обеспечивает «предсказания» с приличной точностью, однако мой список входных переменных больше, чем мне бы хотелось, и я не уверен относительно относительной важности различных...

r machine-learning svm genetic-algorithms

9

Понимание и применение анализа настроений

Мне только что поручили проект проведения анализа настроений для некоторых коллекций документов. По словам Гуглинга, появилось много исследований, связанных с настроениями. Мои вопросы: Каковы основные методы / алгоритмы анализа настроений в области машинного обучения и статистического анализа?...

machine-learning data-mining text-mining information-retrieval sentiment-analysis

9

Классификация с одним доминирующим предиктором

У меня есть проблема классификации ( class) порядка 100 реальных предикторов, один из которых, по-видимому, обладает гораздо большей объяснительной силой, чем любой другой. Я хотел бы углубиться в эффекты других переменных. Однако стандартные методы машинного обучения (случайные леса, SVM и т. Д.)...

machine-learning classification

9

Ожидаемая наилучшая производительность возможна для набора данных

Скажем, у меня есть простая проблема машинного обучения, такая как классификация. С некоторыми показателями в зрении или распознавании звука я, как человек, являюсь очень хорошим классификатором. Поэтому у меня есть интуиция о том, насколько хорошим может стать классификатор. Но с большим...

machine-learning

9

Параметрический, полупараметрический и непараметрический бутстрап для смешанных моделей

Следующие прививки взяты из этой статьи . Я новичок в начальной загрузке и пытаюсь реализовать параметрическую, полупараметрическую и непараметрическую загрузку начальной загрузки для линейной смешанной модели с R bootпакетом. Код R Вот мой Rкод: library(SASmixed) library(lme4) library(boot)...

r mixed-model bootstrap central-limit-theorem stable-distribution time-series hypothesis-testing markov-process r correlation categorical-data association-measure meta-analysis r anova confidence-interval lm r bayesian multilevel-analysis logit regression logistic least-squares eda regression notation distributions random-variable expected-value distributions markov-process hidden-markov-model r variance group-differences microarray r descriptive-statistics machine-learning references r regression r categorical-data random-forest data-transformation data-visualization interactive-visualization binomial beta-distribution time-series forecasting logistic arima beta-regression r time-series seasonality large-data unevenly-spaced-time-series correlation statistical-significance normalization population group-differences demography

9

Динамически настраиваемая архитектура NN: изобретать ненужное?

Я начинаю свое путешествие в аспирантуру, и конечная цель, которую я поставил перед собой, - это разработка ANN, которые бы контролировали среду, в которой они работают, и динамически адаптировали свою архитектуру к имеющейся проблеме. Очевидным следствием является временность данных: если набор...

machine-learning neural-networks

9

Как сравнить наблюдаемые и ожидаемые события?

Предположим, у меня есть одна выборка частот из 4 возможных событий: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 и у меня есть ожидаемые вероятности того, что мои события произойдут: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 С суммой наблюдаемых частот моих четырех событий (18) я могу рассчитать ожидаемые частоты...

r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

9

Использование параметра Gamma с машинами опорных векторов

При использовании libsvmпараметр является параметром для функции ядра. Его значение по умолчанию установлено какγγ\gammaγ= 1количество функций.γзнак равно1количество функций.\gamma = \frac{1}{\text{number of features.}} Существуют ли теоретические рекомендации по настройке этого параметра помимо...

machine-learning svm data-mining libsvm kernel-trick

9

Помогает ли предварительная кластеризация построить лучшую прогностическую модель?

Для задачи моделирования оттока я рассматривал: Вычислить k кластеров для данных Постройте k моделей для каждого кластера индивидуально. Основанием для этого является то, что нечего доказывать, что совокупность подписчиков однородна, поэтому разумно предположить, что процесс генерирования данных...

machine-learning clustering data-mining predictive-models