Вопросы с тегом «validation»

9
Как сравнить наблюдаемые и ожидаемые события?

Предположим, у меня есть одна выборка частот из 4 возможных событий: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 и у меня есть ожидаемые вероятности того, что мои события произойдут: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 С суммой наблюдаемых частот моих четырех событий (18) я могу рассчитать ожидаемые частоты...

9
R / Caret: обучающие и тестовые наборы против перекрестной проверки?

Это может быть, возможно, глупый вопрос, но при создании модели с каретой и использовании чего-то вроде LOOCVили (даже более точно) LGOCV, какая польза от разделения данных на наборы обучающих и тестовых наборов, если это, по сути, шаг перекрестной проверки в любом случае? Я прочитал некоторые из...

9
Смещение оптимизма - оценки ошибки прогноза

В книге «Элементы статистического обучения» (доступно в формате PDF онлайн) обсуждается предвзятость (7.21, стр. 229). В нем говорится, что смещение оптимизма - это разница между ошибкой обучения и ошибкой в ​​выборке (ошибка наблюдается, если мы выбираем новые значения результатов в каждой из...

9
Как найти оптимальные значения параметров настройки в бустинге деревьев?

Я понимаю, что в модели деревьев повышения есть 3 параметра настройки, т.е. количество деревьев (количество итераций) параметр усадки количество разбиений (размер каждого составляющего дерева) У меня вопрос: для каждого из параметров настройки, как мне найти его оптимальное значение? А какой метод?...

9
K-кратная или удерживающая перекрестная проверка для регрессии гребня с использованием R

Я работаю над перекрестной проверкой прогноза моих данных с 200 субъектами и 1000 переменных. Меня интересует регрессия гребня, поскольку число переменных (которые я хочу использовать) больше, чем количество выборок. Поэтому я хочу использовать оценки усадки. Ниже приведены примеры данных: #random...

9
Оценка ошибки из пакета для повышения?

В Случайном Лесу каждое дерево растет параллельно на уникальной выборке данных Boostrap. Поскольку ожидается, что каждая выборка бустрапа будет содержать около 63% уникальных наблюдений, это оставляет примерно 37% наблюдений, которые можно использовать для тестирования дерева. Теперь, кажется , что...

9
Обратное тестирование или перекрестная проверка, когда процесс построения модели был интерактивным

У меня есть несколько прогностических моделей, производительность которых я хотел бы протестировать (например, взять мой набор данных, «перемотать» его к предыдущему моменту времени и посмотреть, как модель будет работать перспективно). Проблема в том, что некоторые из моих моделей были созданы с...

9
Выбор оригинальной (?) Модели с k-кратным CV

При использовании k-кратного CV для выбора между регрессионными моделями я обычно вычисляю ошибку CV отдельно для каждой модели вместе со стандартной ошибкой SE, и выбираю простейшую модель в пределах 1 SE модели с наименьшей ошибкой CV (1 стандартное правило ошибки, см., например, здесь ). Однако...

9
Алгебраические классификаторы, больше информации?

Я прочитал алгебраические классификаторы: общий подход к быстрой перекрестной проверке, онлайн-обучению и параллельному обучению, и был поражен эффективностью производных алгоритмов. Тем не менее, кажется, что помимо наивных байесовских (и GBM), не так много алгоритмов, адаптированных к этой...

9
Должны ли мы всегда делать резюме?

Мой вопрос: должен ли я делать резюме даже для относительно большого набора данных? У меня относительно большой набор данных, и я буду применять алгоритм машинного обучения для набора данных. Так как мой компьютер не быстрый, CV (и поиск по сетке) иногда занимает слишком много времени. В частности,...

9
На самом деле это нормально, чтобы выполнить неконтролируемый выбор функции перед перекрестной проверкой?

В «Элементах статистического обучения» я нашел следующее утверждение: Существует одна квалификация: начальные неконтролируемые этапы скрининга могут быть выполнены до того, как образцы будут опущены. Например, мы могли бы выбрать 1000 предикторов с наибольшей дисперсией во всех 50 выборках перед...

9
Какая модель глубокого обучения может классифицировать категории, которые не являются взаимоисключающими

Примеры: у меня есть предложение в должностной инструкции: «Старший инженер Java в Великобритании». Я хочу использовать модель глубокого обучения, чтобы предсказать ее как 2 категории: English и IT jobs. Если я использую традиционную классификационную модель, она может предсказать только 1 метку с...

9
Правда ли, что байесовцам не нужны тестовые наборы?

Недавно я смотрел этот доклад Эрика Дж. Ма и проверил его запись в блоге , где он цитирует Рэдфорда Нила, что байесовские модели не подходят больше (но они могут соответствовать ), и при их использовании нам не нужны тестовые наборы для их проверки (для Мне кажется, что цитаты говорят скорее об...

9
Почему информация о проверочных данных просачивается, если я оцениваю производительность модели на проверочных данных при настройке гиперпараметров?

В книге «глубокое обучение Франсуа Шоле с Python» говорится: В результате настройка конфигурации модели на основе ее производительности на наборе проверки может быстро привести к подгонке к набору проверки, даже если ваша модель никогда не обучалась непосредственно этому. Центральное место в этом...