Вопросы с тегом «machine-learning»

16
Где в рабочем процессе мы должны иметь дело с отсутствующими данными?

Я строю рабочий процесс для создания моделей машинного обучения (в моем случае, с использованием Python pandasи sklearnпакетов) из данных, извлеченных из очень большой базы данных (здесь, Vertica посредством SQL и pyodbc), и критический шаг в этом процессе включает в себя отсутствие значения...

16
Одноклассная дискриминационная классификация с несбалансированным, гетерогенным отрицательным фоном?

Я работаю над улучшением существующего контролируемого классификатора, чтобы классифицировать последовательности {белка} как принадлежащие к определенному классу (предшественники нейропептидных гормонов) или нет. Существует около 1150 известных «позитивов» на фоне около 13 миллионов белковых...

16
В чем причина лог-преобразования нескольких непрерывных переменных?

Я занимался проблемой классификации, и я читал код и учебные пособия многих людей. Одна вещь, которую я заметил, это то, что многие люди принимают np.logили logнепрерывные переменные, такие как loan_amountили applicant_incomeт. Я просто хочу понять причину этого. Помогает ли это улучшить точность...

16
сделать морскую карту тепла больше

Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера...

16
Что такое оценка LB в машинном обучении?

Я просматривал статью в блогах Kaggle. Неоднократно автор упоминает «оценку LB» и «соответствие LB») в качестве показателя эффективности машинного обучения (наряду с оценкой перекрестной проверки (CV)). С исследованием значения «LB» я потратил довольно много времени, я понял, что обычно люди...

16
Как выбрать функции для нейронной сети?

Я знаю, что нет четкого ответа на этот вопрос, но давайте предположим, что у меня огромная нейронная сеть с большим количеством данных, и я хочу добавить новую функцию ввода. «Лучший» способ - проверить сеть с помощью новой функции и увидеть результаты, но есть ли способ проверить, полезна ли эта...

16
Как повысить точность классификаторов?

Я использую пример OpenCV letter_recog.cpp для экспериментов со случайными деревьями и другими классификаторами. Этот пример имеет реализации шести классификаторов - случайных деревьев, бустинга, MLP, kNN, наивных байесовских и SVM. Используется набор данных для распознавания букв UCI с 20000...

16
Зачем нам отбрасывать одну фиктивную переменную?

Я узнал, что для создания регрессионной модели мы должны позаботиться о категориальных переменных, преобразовав их в фиктивные переменные. Например, если в нашем наборе данных есть переменная типа location: Location ---------- Californian NY Florida Мы должны конвертировать их как: 1 0 0 0 1 0 0 0...

16
Как предсказать вероятности в xgboost?

Приведенная ниже функция прогнозирования также дает значения -ve, поэтому она не может быть вероятностью. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) Я...

16
Как получить прогнозы с помощьюgnast_generator для потоковых тестовых данных в Keras?

В блоге Keras, посвященном обучению пользователей с нуля , код показывает только сеть, работающую с данными обучения и проверки. Как насчет тестовых данных? Являются ли данные проверки такими же, как данные испытаний (я думаю, что нет). Если в строках, похожих на папки с поездами и валидацией, была...

16
Какие задачи обучения подходят для машин опорных векторов?

Какие отличительные признаки или свойства указывают на то, что определенная проблема обучения может быть решена с использованием машин опорных векторов? Другими словами, что, когда вы видите проблему обучения, заставляет вас говорить: «О, я определенно должен использовать SVM для этого», а не...

15
Как указать важные атрибуты?

Предположим, что набор данных со слабой структурой (например, веб-таблицы / связанные открытые данные) состоит из множества источников данных. Не существует общей схемы, за которой следуют данные, и каждый источник может использовать атрибуты синонимов для описания значений (например,...

15
Как я изучаю нейронные сети?

Я студент-первокурсник (упоминая об этом, чтобы вы могли простить мою незнакомость), который в настоящее время проводит исследования с использованием нейронных сетей. Я закодировал трехузловую нейронную сеть (которая работает) на основе руководства моего профессора. Тем не менее, я хотел бы...

15
В чем разница между RNN, основанными на словах и символах?

Читая о генерации текста с помощью Recurrent Neural Networks, я заметил, что некоторые примеры были реализованы для генерации текста слово за словом, а другие - символ за символом, без указания причины. Итак, в чем разница между моделями RNN, которые предсказывают текст на основе слова, и моделями,...

15
обратное распространение в CNN

У меня есть следующий CNN: Я начинаю с входного изображения размером 5х5 Затем я применяю свертку, используя ядро ​​2x2 и шаг = 1, что дает карту характеристик размером 4x4. Затем я применяю максимальный пул 2x2 с шагом = 2, который уменьшает карту объектов до размера 2x2. Затем я применяю...

15
Дерево решений против KNN

В каких случаях лучше использовать дерево решений, а в других случаях - KNN? Зачем использовать один из них в определенных случаях? А другие в разных случаях? (Глядя на его функциональность, а не на алгоритм) У кого-нибудь есть объяснения или ссылки по этому...

15
Почему функции активации должны быть монотонными?

В настоящее время я готовлюсь к экзамену по нейронным сетям. В нескольких протоколах предыдущих экзаменов я читал, что функции активации нейронов (в многослойных персептронах) должны быть монотонными. Я понимаю, что функции активации должны быть дифференцируемыми, иметь производную, которая не...

15
В чем преимущество сохранения размера партии равным 2?

При обучении моделей машинному обучению, почему иногда выгодно поддерживать размер пакета в степени 2? Я подумал, что было бы лучше использовать размер, который больше всего подходит для вашей памяти GPU / RAM. Этот ответ утверждает, что для некоторых пакетов степень 2 лучше, чем размер пакета....

15
R: машинное обучение на GPU

Существуют ли какие-либо пакеты машинного обучения для R, которые могут использовать графический процессор для повышения скорости обучения (что-то вроде theano из мира питонов)? Я вижу, что есть пакет под названием gputools, который позволяет выполнять код в gpu, но я ищу более полную библиотеку...