Вопросы с тегом «data-preprocessing»

50
Горячее против фиктивного кодирования в Scikit-Learn

Существует два разных способа кодирования категориальных переменных. Скажем, одна категориальная переменная имеет n значений. Горячее кодирование преобразует его в n переменных, а фиктивное кодирование преобразует его в n-1 переменные. Если у нас есть k категориальных переменных, каждая из которых...

16
Нужен ли случайный лес масштабируемым или центрированным входным переменным?

Мои входные переменные имеют разные размеры. Некоторые переменные являются десятичными, а некоторые - сотнями. Необходимо ли центрировать (вычитать среднее) или масштабировать (делить на стандартное отклонение) эти входные переменные, чтобы сделать данные безразмерными при использовании случайного...

13
Нейронные сети: одна горячая переменная подавляющая непрерывная?

У меня есть необработанные данные, которые имеют около 20 столбцов (20 функций). Десять из них являются непрерывными данными, а 10 - категориальными. Некоторые из категориальных данных могут иметь около 50 различных значений (штаты США). После предварительной обработки данных 10 непрерывных...

12
Какие алгоритмы требуют горячего кодирования?

Я никогда не уверен, когда использовать одно горячее кодирование для неупорядоченных категориальных переменных, а когда нет. Я использую его всякий раз, когда алгоритм использует метрику расстояния для вычисления сходства. Может ли кто-нибудь дать общее эмпирическое правило относительно того, какие...

11
Вопрос о вычитании среднего значения в поезде / действительном / тестовом наборе

Я делаю предварительную обработку данных и собираюсь создать Convonets на моих данных после. Мой вопрос: скажем, у меня есть общие наборы данных со 100 изображениями, я вычислял среднее значение для каждого из 100 изображений, а затем вычитал его из каждого из изображений, затем делил его на набор...

10
Что такое бакетизация?

Я собирался найти четкое объяснение "сгибания" в машинном обучении без удачи. Что я понимаю до сих пор, так это то, что бекетирование аналогично квантованию в цифровой обработке сигналов, когда диапазон непрерывных значений заменяется одним дискретным значением. Это правильно? Каковы плюсы и минусы...