Вопросы с тегом «cross-validation»

Относится к общим процедурам, которые пытаются определить возможность обобщения статистического результата. Перекрестная проверка часто возникает в контексте оценки того, как соответствие конкретной модели предсказывает будущие наблюдения. Методы перекрестной проверки обычно включают в себя удержание случайного подмножества данных во время подгонки модели и количественную оценку того, насколько точны прогнозируемые удерживаемые данные, и повторение этого процесса, чтобы получить меру точности прогноза.

29
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?

Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал...

23
Требуется ли перекрестная проверка для моделирования со случайными лесами?

Насколько я видел, мнения об этом, как правило, расходятся. Лучшая практика, безусловно, диктует использование перекрестной проверки (особенно если сравнивать RF с другими алгоритмами в одном и том же наборе данных). С другой стороны, исходный источник утверждает, что факт ошибки OOB, вычисляемый...

23
Как использовать вывод GridSearch?

В настоящее время я работаю с Python и Scikit для целей классификации, и немного изучаю GridSearch. Я подумал, что это отличный способ оптимизировать параметры моей оценки, чтобы получить наилучшие результаты. Моя методология такая: Разделить мои данные на обучение / тестирование. Используйте...

21
Объединение нескольких фреймов данных построчно в PySpark

У меня есть 10 фреймов данных pyspark.sql.dataframe.DataFrame, полученных randomSplitкак. (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)Теперь я хочу объединить 9 tdфреймов в один фрейм данных, как мне это сделать? Я уже...

21
В чем разница между начальной загрузкой и перекрестной проверкой?

Раньше я применял K-кратную перекрестную проверку для надежной оценки моих моделей машинного обучения. Но я знаю о существовании метода начальной загрузки для этой цели. Однако я не вижу основной разницы между ними с точки зрения оценки производительности. Насколько я вижу, при начальной загрузке...

17
Зачем использовать набор проверки и набор тестов?

Рассмотрим нейронную сеть: Для данного набора данных мы делим его на наборы для обучения, проверки и тестирования. Предположим, что мы делаем это в классическом соотношении 60:20:20, тогда мы предотвращаем переобучение, проверяя сеть, проверяя ее на наборе проверки. Тогда зачем тестировать его на...

17
Как работает параметр validation_split функции подбора Keras?

Разделение валидации в Keras Последовательная функция подбора модели документирована следующим образом на https://keras.io/models/sequential/ : validation_split: с плавающей точкой от 0 до 1. Доля данных обучения, которые будут использоваться в качестве данных проверки. Модель выделит эту часть...

16
сделать морскую карту тепла больше

Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера...

13
Как выбрать классификатор после перекрестной проверки?

Когда мы проводим перекрестную проверку в k-кратном порядке, должны ли мы просто использовать классификатор, который имеет самую высокую точность теста? Каков обычно лучший подход в получении классификатора от перекрестной...

12
Может ли перенастройка произойти, даже если потеря проверки все еще падает?

У меня есть сверточная модель + LSTM в Керасе, похожая на эту (ссылка 1), которую я использую для конкурса Kaggle. Архитектура показана ниже. Я обучил его на своем маркированном наборе из 11000 образцов (два класса, начальная распространенность ~ 9: 1, поэтому я увеличил выборку с 1 до примерно...

12
Сколько ячеек LSTM я должен использовать?

Существуют ли какие-либо практические правила (или фактические правила), касающиеся минимального, максимального и «разумного» количества ячеек LSTM, которые я должен использовать? В частности, я имею в виду BasicLSTMCell из TensorFlow и num_unitsсвойства. Пожалуйста, предположите, что у меня есть...

11
Переоснащение / Подгонка с размером набора данных

На графике ниже ось x => Размер набора данных ось у => Оценка перекрестной проверки Красная линия для данных обучения Зеленая линия для тестирования данных В учебнике, на который я ссылаюсь, автор говорит, что точка, где красная линия и зеленая линия перекрываются, означает, Сбор большего...

10
Перекрестная проверка: K-кратная и повторная случайная выборка

Интересно, какой тип перекрестной проверки модели выбрать для задачи классификации: K-кратная или случайная суб-выборка (выборка с начальной загрузкой)? Мое лучшее предположение - использовать 2/3 набора данных (который составляет ~ 1000 элементов) для обучения и 1/3 для проверки. В этом случае...

9
Как подойти к конкурсу numer.ai с анонимными масштабированными числовыми предикторами?

Numer.ai существует уже какое-то время, и, похоже, в сети только несколько сообщений или других обсуждений. Время от времени система менялась, и сегодня ее установка такова: обучающие (N = 96K) и тестовые (N = 33K) данные с 21 признаком с непрерывными значениями в [0,1] и двоичной целью. Данные...