Вопросы с тегом «cross-validation»

9
Как правильно применять перекрестную проверку в контексте выбора параметров обучения для машин опорных векторов?

Прекрасный пакет libsvm предоставляет интерфейс Python и файл «easy.py», который автоматически ищет параметры обучения (cost & gamma), которые максимизируют точность классификатора. В заданном наборе параметров обучения кандидата точность реализуется путем перекрестной проверки, но я чувствую,...

9
Перекрестная проверка для смешанных моделей?

Мы с моим коллегой подбираем ряд линейных и нелинейных моделей смешанных эффектов в R. Нас просят провести перекрестную проверку на подобранных моделях, чтобы можно было убедиться, что наблюдаемые эффекты относительно обобщаемы. Обычно это тривиальная задача, но в нашем случае мы должны разделить...

9
AUC в порядковой логистической регрессии

Я использую 2 вида логистической регрессии - один простой тип, для двоичной классификации, а другой - порядковый логистический регресс. Для вычисления точности первого я использовал перекрестную проверку, где я вычислял AUC для каждого раза и затем вычислял среднее значение AUC. Как я могу сделать...

9
Выбор модели и производительность модели в логистической регрессии

У меня есть вопрос о выборе модели и производительности модели в логистической регрессии. У меня есть три модели, основанные на трех разных гипотезах. Первые две модели (назовем их z и x) имеют только одну объясняющую переменную в каждой модели, а третья (назовем ее w) является более сложной. Я...

9
Как сравнить наблюдаемые и ожидаемые события?

Предположим, у меня есть одна выборка частот из 4 возможных событий: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 и у меня есть ожидаемые вероятности того, что мои события произойдут: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 С суммой наблюдаемых частот моих четырех событий (18) я могу рассчитать ожидаемые частоты...

9
R / Caret: обучающие и тестовые наборы против перекрестной проверки?

Это может быть, возможно, глупый вопрос, но при создании модели с каретой и использовании чего-то вроде LOOCVили (даже более точно) LGOCV, какая польза от разделения данных на наборы обучающих и тестовых наборов, если это, по сути, шаг перекрестной проверки в любом случае? Я прочитал некоторые из...

9
Как найти оптимальные значения параметров настройки в бустинге деревьев?

Я понимаю, что в модели деревьев повышения есть 3 параметра настройки, т.е. количество деревьев (количество итераций) параметр усадки количество разбиений (размер каждого составляющего дерева) У меня вопрос: для каждого из параметров настройки, как мне найти его оптимальное значение? А какой метод?...

9
K-кратная или удерживающая перекрестная проверка для регрессии гребня с использованием R

Я работаю над перекрестной проверкой прогноза моих данных с 200 субъектами и 1000 переменных. Меня интересует регрессия гребня, поскольку число переменных (которые я хочу использовать) больше, чем количество выборок. Поэтому я хочу использовать оценки усадки. Ниже приведены примеры данных: #random...

9
Оценка ошибки из пакета для повышения?

В Случайном Лесу каждое дерево растет параллельно на уникальной выборке данных Boostrap. Поскольку ожидается, что каждая выборка бустрапа будет содержать около 63% уникальных наблюдений, это оставляет примерно 37% наблюдений, которые можно использовать для тестирования дерева. Теперь, кажется , что...

9
Обратное тестирование или перекрестная проверка, когда процесс построения модели был интерактивным

У меня есть несколько прогностических моделей, производительность которых я хотел бы протестировать (например, взять мой набор данных, «перемотать» его к предыдущему моменту времени и посмотреть, как модель будет работать перспективно). Проблема в том, что некоторые из моих моделей были созданы с...

9
Выбор оригинальной (?) Модели с k-кратным CV

При использовании k-кратного CV для выбора между регрессионными моделями я обычно вычисляю ошибку CV отдельно для каждой модели вместе со стандартной ошибкой SE, и выбираю простейшую модель в пределах 1 SE модели с наименьшей ошибкой CV (1 стандартное правило ошибки, см., например, здесь ). Однако...

9
Алгебраические классификаторы, больше информации?

Я прочитал алгебраические классификаторы: общий подход к быстрой перекрестной проверке, онлайн-обучению и параллельному обучению, и был поражен эффективностью производных алгоритмов. Тем не менее, кажется, что помимо наивных байесовских (и GBM), не так много алгоритмов, адаптированных к этой...

9
Должны ли мы всегда делать резюме?

Мой вопрос: должен ли я делать резюме даже для относительно большого набора данных? У меня относительно большой набор данных, и я буду применять алгоритм машинного обучения для набора данных. Так как мой компьютер не быстрый, CV (и поиск по сетке) иногда занимает слишком много времени. В частности,...

9
На самом деле это нормально, чтобы выполнить неконтролируемый выбор функции перед перекрестной проверкой?

В «Элементах статистического обучения» я нашел следующее утверждение: Существует одна квалификация: начальные неконтролируемые этапы скрининга могут быть выполнены до того, как образцы будут опущены. Например, мы могли бы выбрать 1000 предикторов с наибольшей дисперсией во всех 50 выборках перед...

9
Какая модель глубокого обучения может классифицировать категории, которые не являются взаимоисключающими

Примеры: у меня есть предложение в должностной инструкции: «Старший инженер Java в Великобритании». Я хочу использовать модель глубокого обучения, чтобы предсказать ее как 2 категории: English и IT jobs. Если я использую традиционную классификационную модель, она может предсказать только 1 метку с...

9
Правда ли, что байесовцам не нужны тестовые наборы?

Недавно я смотрел этот доклад Эрика Дж. Ма и проверил его запись в блоге , где он цитирует Рэдфорда Нила, что байесовские модели не подходят больше (но они могут соответствовать ), и при их использовании нам не нужны тестовые наборы для их проверки (для Мне кажется, что цитаты говорят скорее об...

9
Почему информация о проверочных данных просачивается, если я оцениваю производительность модели на проверочных данных при настройке гиперпараметров?

В книге «глубокое обучение Франсуа Шоле с Python» говорится: В результате настройка конфигурации модели на основе ее производительности на наборе проверки может быстро привести к подгонке к набору проверки, даже если ваша модель никогда не обучалась непосредственно этому. Центральное место в этом...