Вопросы с тегом «machine-learning»

58
Ошибка проверки меньше, чем ошибка обучения?

Здесь и здесь я нашел два вопроса об этой проблеме, но пока нет очевидного ответа или объяснения. Я навязываю ту же проблему, где ошибка проверки меньше, чем ошибка обучения в моей Convolution Neural Network. Что это...

57
Кулинарная книга по машинному обучению / справочная карточка / шпаргалка?

Я считаю невероятно полезными такие ресурсы, как Книга вероятностей и статистики и Справочная карта R для интеллектуального анализа данных . Они, очевидно, служат справочной информацией, но также помогают мне организовать свои мысли по теме и получить представление о земле. В: Есть ли что-то...

54
Удерживающая проверка против перекрестной проверки

Мне кажется, что проверка не нужна. То есть разделение исходного набора данных на две части (обучение и тестирование) и использование результатов тестирования в качестве обобщающей меры несколько бесполезны. K-кратная перекрестная проверка, кажется, дает лучшие приближения к обобщению (поскольку...

54
Использование глубокого обучения для прогнозирования временных рядов

Я новичок в области глубокого обучения, и для меня первым шагом было прочитать интересные статьи с сайта deeplearning.net. В статьях о глубоком обучении Хинтон и другие в основном говорят о применении его к проблемам изображения. Может кто-нибудь попытаться ответить мне, может ли это быть применено...

54
О важности предположения IID в статистическом обучении

В статистическом обучении, неявно или явно, всегда предполагается, что обучающий набор состоит из наборов ввода / ответа , которые независимо взяты из одного и того же совместного распределения сD ={ X , y }D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}NNNP ( X , y )( Xя, уя)(Xi,yi)({\bf{X}}_i,y_i)...

53
Когда несбалансированные данные действительно являются проблемой в машинном обучении?

У нас уже было несколько вопросов о несбалансированных данных при использовании логистической регрессии , SVM , деревьев решений , пакетов и ряда других подобных вопросов, что делает эту тему очень популярной! К сожалению, каждый из вопросов, похоже, зависит от алгоритма, и я не нашел каких-либо...

53
Машинное обучение с использованием Python

Я рассматриваю возможность использования библиотек Python для проведения экспериментов по машинному обучению. До сих пор я полагался на WEKA, но в целом был довольно недоволен. Это связано прежде всего с тем, что я обнаружил, что WEKA не так хорошо поддерживается (очень мало примеров, документации...

52
Бинарная классификация с сильно несбалансированными классами

У меня есть набор данных в виде (функции, двоичный вывод 0 или 1), но 1 случается довольно редко, поэтому, всегда прогнозируя 0, я получаю точность от 70% до 90% (в зависимости от конкретных данных, на которые я смотрю ). Методы ML дают мне примерно одинаковую точность, и я считаю, что в этой...

52
Выполнить нормализацию объекта до или в рамках валидации модели?

Обычной хорошей практикой в ​​машинном обучении является нормализация характеристик или стандартизация данных переменных предиктора, вот и все, центрируйте данные, вычитая среднее значение, и нормализуйте его, деля на дисперсию (или стандартное отклонение тоже). Для самодостаточности и, насколько я...

52
Необходимо ли масштабировать целевое значение в дополнение к функциям масштабирования для регрессионного анализа?

Я строю регрессионные модели. В качестве шага предварительной обработки я масштабирую значения моих объектов так, чтобы они имели среднее значение 0 и стандартное отклонение 1. Необходимо ли также нормализовать целевые...

52
Нейронные сети против опорных векторных машин: второе определенно превосходит?

Многие авторы статей, которые я читаю, утверждают, что SVM - это превосходный метод для решения проблемы регрессии / классификации, осознавая, что они не могут получить аналогичные результаты с помощью NN. Часто сравнение утверждает, что SVM вместо NN, Иметь сильную теорию основания Достигнуть...

51
Случайный лес - это алгоритм повышения?

Краткое определение повышения : Может ли группа слабых учеников создать одного сильного ученика? Слабый ученик определяется как классификатор, который лишь незначительно коррелирует с истинной классификацией (он может маркировать примеры лучше, чем случайные догадки). Краткое определение случайного...

51
Почему бы не приблизиться к классификации через регрессию?

В некоторых материалах, которые я видел по машинному обучению, говорилось, что плохая идея - подходить к проблеме классификации с помощью регрессии. Но я думаю, что всегда можно сделать непрерывную регрессию, чтобы соответствовать данным и усечь непрерывный прогноз, чтобы получить дискретные...

50
Книга для чтения перед элементами статистического обучения?

Основываясь на этом посте , я хочу переварить элементы статистического обучения. К счастью, он доступен бесплатно, и я начал его читать. У меня недостаточно знаний, чтобы понять это. Можете ли вы порекомендовать книгу, которая является лучшим введением в темы книги? Надеюсь, что-то, что даст мне...

50
Кластеризация с K-Means и EM: как они связаны?

Я изучал алгоритмы кластеризации данных (обучение без учителя): EM и k-means. Я продолжаю читать следующее: К-среднее является вариантом EM, с предположениями, что кластеры являются сферическими. Может кто-нибудь объяснить вышеприведенное предложение? Я не понимаю, что означает сферическое, и как...

50
Можно ли использовать случайный лес для выбора признаков в множественной линейной регрессии?

Так как RF может обрабатывать нелинейность, но не может предоставить коэффициенты, было бы разумно использовать случайный лес для сбора наиболее важных признаков, а затем включить эти объекты в модель множественной линейной регрессии для получения их коэффициентов?...

49
Насколько большим должен быть размер партии для стохастического градиентного спуска?

Я понимаю, что стохастический градиентный спуск может быть использован для оптимизации нейронной сети с использованием обратного распространения путем обновления каждой итерации различным образцом обучающего набора данных. Насколько большим должен быть размер...

49
Порог вероятности классификации

У меня есть вопрос относительно классификации в целом. Пусть f - классификатор, который выводит набор вероятностей с учетом некоторых данных D. Обычно можно сказать: хорошо, если P (c | D)> 0,5, мы назначим класс 1, в противном случае 0 (пусть это будет двоичный файл классификация). Мой вопрос...