Наука о данных

9
Многомерная линейная регрессия в Python

Я ищу пакет Python, который реализует многомерную линейную регрессию. (Терминологическое примечание: многомерная регрессия имеет дело со случаем, когда существует более одной зависимой переменной, в то время как множественная регрессия имеет дело со случаем, когда существует одна зависимая...

9
Как смоделировать покупательское поведение пользователя на Amazon?

Для нашего окончательного курсового проекта в Data Science мы предложили следующее: Предоставляя набор данных Amazon Reviews , мы планируем разработать алгоритм (который примерно основан на персонализированном PageRank), который определяет стратегическую позицию для размещения рекламы на Amazon....

9
Существуют ли исследования, которые изучают отсев против других регуляризаций?

Существуют ли опубликованные статьи, в которых показаны различия в методах регуляризации для нейронных сетей, предпочтительно в разных областях (или, по крайней мере, в разных наборах данных)? Я спрашиваю, потому что у меня сейчас есть ощущение, что большинство людей, похоже, используют только...

9
Библиотека Python, которая может вычислить матрицу путаницы для классификации по нескольким меткам

Я ищу библиотеку Python, которая может вычислить матрицу путаницы для классификации по нескольким меткам . FYI: scikit-learn не поддерживает мульти-метки для матрицы путаницы) В чем разница между Multiclass и Multilabel Problem...

9
Какова связь между SVM и потерей шарнира?

Мы с коллегой пытаемся понять разницу между логистической регрессией и SVM. Очевидно, они оптимизируют различные целевые функции. Является ли SVM таким простым, как сказать, что это дискриминационный классификатор, который просто оптимизирует потерю шарнира? Или это сложнее, чем это? Как векторы...

9
Экспорт весов (формула) из Случайного Лесного Регрессора в Scikit-Learn

Я обучил модель прогнозирования с помощью Scikit Learn на Python (Random Forest Regressor) и хочу каким-то образом извлечь вес каждой функции, чтобы создать превосходный инструмент для ручного прогнозирования. Единственное, что я нашел, - model.feature_importances_но это не помогает. Есть ли способ...

9
Наборы эталонных данных для совместной фильтрации

Я хотел бы протестировать новый алгоритм совместной фильтрации . Типичный вариант использования - рекомендовать фильмы на основе предпочтений пользователей, похожих на конкретного пользователя. Какие наборы эталонных данных часто используют исследователи для проверки своих алгоритмов? Я знаю, что в...

9
Какой механизм рекомендаций для ситуации, когда пользователи могут видеть только часть всех элементов?

Я хочу добавить функцию рекомендации в систему управления документами . Это сервер, на котором хранится большинство документов компании. Сотрудники просматривают веб-интерфейс и нажимают, чтобы загрузить (или прочитать в Интернете) нужные документы. Каждый сотрудник имеет доступ только к...

9
Какие, если таковые имеются, алгоритмы машинного обучения считаются хорошим компромиссом между объяснимостью и предсказанием?

Тексты машинного обучения, описывающие алгоритмы, такие как машины повышения градиента или нейронные сети, часто комментируют, что эти модели хороши в прогнозировании, но это происходит за счет потери объяснимости или интерпретируемости. И наоборот, одиночные деревья решений и классические...

9
Выбор метода регуляризации в нейронных сетях

При обучении нейронных сетей существует как минимум 4 способа упорядочения сети: Регуляризация L1 Регуляризация L2 Выбывать Пакетная нормализация плюс, конечно, другие вещи, такие как распределение веса и уменьшение количества соединений, что не может быть регуляризацией в самом строгом смысле. Но...

9
Важность функции через случайный лес и линейную регрессию различны

Применил Лассо для ранжирования функций и получил следующие результаты: rank feature prob. ================================== 1 a 0.1825477951589229 2 b 0.07858498115577893 3 c 0.07041793111843796 Обратите внимание, что набор данных имеет 3 метки. Ранжирование функций для разных ярлыков одинаково....

9
Как подойти к конкурсу numer.ai с анонимными масштабированными числовыми предикторами?

Numer.ai существует уже какое-то время, и, похоже, в сети только несколько сообщений или других обсуждений. Время от времени система менялась, и сегодня ее установка такова: обучающие (N = 96K) и тестовые (N = 33K) данные с 21 признаком с непрерывными значениями в [0,1] и двоичной целью. Данные...

9
Особенности словосочетаний в word2vec

Я пытаюсь сделать анализ настроения. Чтобы преобразовать слова в слова, я использую модель word2vec. Предположим, у меня есть все предложения в списке под названием «предложения», и я передаю эти предложения в word2vec следующим образом: model = word2vec.Word2Vec(sentences, workers=4 ,...

9
Почему скорость обучения приводит к стремительному росту веса моей нейронной сети?

Я использую tenorflow для написания простых нейронных сетей для небольшого количества исследований, и у меня было много проблем с весами 'nan' во время обучения. Я пробовал много разных решений, таких как смена оптимизатора, изменение потерь, размера данных и т. Д., Но безрезультатно. Наконец, я...

9
Интерпретация дерева решений в контексте важности функций

Я пытаюсь понять, как полностью понять процесс принятия решений модели классификации дерева решений, построенной с использованием sklearn. Два основных аспекта, на которые я смотрю, - это графическое представление дерева и список важных функций. Что я не понимаю, так это то, как важность функции...

9
Чем сверточный слой отличается от обычной сверточной сети?

В настоящее время я работаю над воссозданием результатов этой статьи . В статье они описывают метод использования CNN для извлечения признаков и имеют акустическую модель, которая является Dnn-хмм и предварительно обученной с использованием RBM. В разделе III подраздела А изложены различные способы...

9
количество параметров для сверточных слоев

В этой высоко цитируемой статье авторы приводят следующую дискуссию о количестве весовых параметров. Мне не очень понятно, почему у него параметров. Я думаю, что это должно быть 49 C, поскольку каждый из входных каналов C использует один и тот же фильтр, который имеет 49 параметров.49 С249C249C^249...

9
Как я могу сделать большие матрицы путаницы легче для чтения?

Недавно я опубликовал набор данных ( ссылку ) с 369 классами. Я провел пару экспериментов на них, чтобы понять, насколько сложна задача классификации. Обычно мне нравится, если есть матрицы путаницы, чтобы увидеть тип совершаемой ошибки. Однако матрица не практична.369 × 369369×369369 \times 369...

9
Зачем использовать сверточные NN для задачи визуального осмотра по сравнению с классическим сопоставлением шаблонов CV?

У меня возникла интересная дискуссия, основанная на проекте, над которым мы работали: зачем использовать систему визуального осмотра CNN поверх алгоритма сопоставления шаблонов? Справочная информация: я продемонстрировал демонстрацию простой системы видеонаблюдения CNN (веб-камера + ноутбук),...

9
Имеет ли смысл обучать CNN как автоэнкодер?

Я работаю с анализом данных ЭЭГ, которые в конечном итоге необходимо будет классифицировать. Тем не менее, получение ярлыков для записей несколько дорого, что заставило меня рассмотреть неконтролируемые подходы, чтобы лучше использовать наши довольно большие объемы немаркированных данных. Это,...