Вопросы с тегом «sampling»

32
Интуитивно понятное объяснение потери шумовой контрастной оценки (NCE)?

Я читал о NCE (форма выборки кандидатов) из этих двух источников: Тензор потока записи Оригинальная бумага Может ли кто-нибудь помочь мне со следующим: Простое объяснение того, как работает NCE (я обнаружил, что вышеизложенное трудно разобрать и понять, поэтому что-то интуитивное, что приводит к...

21
train_test_split () ошибка: найдены входные переменные с непоследовательным количеством сэмплов

Довольно плохо знаком с Python, но строю свою первую модель RF на основе некоторых классификационных данных. Я преобразовал все метки в числовые данные int64 и загрузил их в X и Y в виде пустого массива, но у меня возникает ошибка, когда я пытаюсь обучить модели. Вот как выглядят мои массивы:...

14
Нужна ли стратифицированная выборка (случайный лес, Python)?

Я использую Python для запуска модели случайного леса на моем несбалансированном наборе данных (целевой переменной был двоичный класс). Разделяя набор данных обучения и тестирования, я боролся, использовать ли стратифицированную выборку (как показано в коде) или нет. До сих пор я наблюдал в своем...

13
Должен ли я использовать несбалансированный класс в рамках выборки в моих наборах данных для проверки / тестирования?

Я новичок в машинном обучении и сталкиваюсь с ситуацией. Я работаю над проблемой ставок в реальном времени с набором данных IPinYou и пытаюсь сделать прогноз клика. Дело в том, что, как вы, возможно, знаете, набор данных очень несбалансирован: около 1300 отрицательных примеров (без кликов) на 1...

13
Сколько функций для выборки с использованием случайных лесов

На странице Википедии, которая цитирует «Элементы статистического обучения», написано: Как правило, для задачи классификации с функциями, ⌊ √ппp функции используются в каждом разделении.⌊ р-√⌋⌊п⌋\lfloor \sqrt{p}\rfloor Я понимаю, что это довольно обоснованное предположение, и оно, вероятно,...

12
Сколько ячеек LSTM я должен использовать?

Существуют ли какие-либо практические правила (или фактические правила), касающиеся минимального, максимального и «разумного» количества ячеек LSTM, которые я должен использовать? В частности, я имею в виду BasicLSTMCell из TensorFlow и num_unitsсвойства. Пожалуйста, предположите, что у меня есть...

12
почему мы должны справиться с дисбалансом данных?

Мне нужно знать, почему мы должны бороться с дисбалансом данных. Я знаю, как с этим справляться, и различными методами для решения проблемы, которая заключается в повышении или понижении или использовании Smote. Например, если у меня редкое заболевание 1% из 100, и, скажем, я решил иметь...

11
Существуют ли хорошие готовые языковые модели для Python?

Я создаю прототип приложения и мне нужна языковая модель для вычисления недоумения в некоторых сгенерированных предложениях. Есть ли в Python обученная языковая модель, которую я могу легко использовать? Что-то простое, как model = LanguageModel('en') p1 = model.perplexity('This is a well...

10
Перекрестная проверка: K-кратная и повторная случайная выборка

Интересно, какой тип перекрестной проверки модели выбрать для задачи классификации: K-кратная или случайная суб-выборка (выборка с начальной загрузкой)? Мое лучшее предположение - использовать 2/3 набора данных (который составляет ~ 1000 элементов) для обучения и 1/3 для проверки. В этом случае...

10
Когда мы должны считать набор данных несбалансированным?

Я сталкиваюсь с ситуацией, когда количество положительных и отрицательных примеров в наборе данных несбалансировано. Мой вопрос заключается в том, есть ли какие-то практические правила, которые говорят нам, когда нам следует отбирать большую категорию, чтобы навязать некоторый баланс в наборе...