Вопросы с тегом «supervised-learning»

29
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?

Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал...

18
Word2Vec против Sentence2Vec против Doc2Vec

Недавно я натолкнулся на термины Word2Vec , Sentence2Vec и Doc2Vec, и я был немного сбит с толку, поскольку я новичок в векторной семантике. Может кто-нибудь, пожалуйста, изложите различия в этих методах простыми словами. Каковы наиболее подходящие задачи для каждого...

17
Объединение разреженных и плотных данных в машинном обучении для повышения производительности

У меня есть редкие признаки, которые являются прогнозирующими, также у меня есть некоторые плотные признаки, которые также являются прогнозирующими. Мне нужно объединить эти функции вместе, чтобы улучшить общую производительность классификатора. Дело в том, что когда я пытаюсь объединить их вместе,...

16
Какие задачи обучения подходят для машин опорных векторов?

Какие отличительные признаки или свойства указывают на то, что определенная проблема обучения может быть решена с использованием машин опорных векторов? Другими словами, что, когда вы видите проблему обучения, заставляет вас говорить: «О, я определенно должен использовать SVM для этого», а не...

16
сделать морскую карту тепла больше

Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера...

15
Интуиция за ограниченной машиной Больцмана (RBM)

Я прошел курс Джеффа Хинтона по нейронным сетям на Coursera, а также познакомился с ограниченными машинами Больцмана , все еще не понимая интуицию, лежащую в основе УОКР. Зачем нам нужно вычислять энергию в этой машине? И какая польза от вероятности в этой машине? Я также видел это видео . В видео...

12
Обучение под присмотром против обучения с подкреплением для простого самостоятельного вождения автомобиля

Я строю автомобиль с дистанционным управлением для удовольствия. Я использую Raspberry Pi в качестве бортового компьютера; и я использую различные плагины, такие как камера Raspberry Pi и датчики расстояния, для обратной связи по окружению автомобиля. Я использую OpenCV, чтобы превратить видеокадры...

11
Создайте двоичный классификатор только с положительными и непомеченными данными

У меня есть 2 набора данных, один с положительными экземплярами того, что я хотел бы обнаружить, и один с немечеными экземплярами. Какие методы я могу использовать? В качестве примера, предположим, что мы хотим понять, обнаруживать спам по электронной почте на основе нескольких структурированных...

11
Как word2vec может быть использован для выявления невидимых слов и соотнести их с уже подготовленными данными

Я работал на word2vec gensim модели и нашел, что это действительно интересно. Меня интересует, как неизвестное / невидимое слово при проверке с моделью сможет получить аналогичные термины от обученной модели. Это возможно? Может word2vec быть переделаны для этого? Или учебный корпус должен иметь...

10
Как использовать GAN для извлечения неконтролируемой функции из изображений?

Я понял, как работает GAN, в то время как две сети (генеративная и дискриминационная) конкурируют друг с другом. Я построил DCGAN (GAN с сверточным дискриминатором и деконволюционным генератором), который теперь успешно генерирует рукописные цифры, аналогичные тем, которые указаны в наборе данных...

9
Имеет ли смысл обучать CNN как автоэнкодер?

Я работаю с анализом данных ЭЭГ, которые в конечном итоге необходимо будет классифицировать. Тем не менее, получение ярлыков для записей несколько дорого, что заставило меня рассмотреть неконтролируемые подходы, чтобы лучше использовать наши довольно большие объемы немаркированных данных. Это,...