У меня есть набор данных с 26 функциями и 31000 строк. Это набор данных из 38 предметов. Это для биометрической системы. Поэтому я хочу иметь возможность определять предметы.
Чтобы иметь набор для тестирования, я знаю, что должен удалить некоторые значения.
Так что лучше делать и почему?
(а) оставить 30 предметов в качестве учебного комплекта и удалить 8 предметов в качестве испытательного комплекта
(б) оставить 38 предметов, но удалить несколько рядов каждого из них. Итак, в конце я получу набор для обучения: 24800 рядов по 38 предметов И набор для тестирования: 6200 рядов по 38 предметов
Ответы:
Я думаю, что ответ Мэтью Ганна верен, но мне кажется, что «рекордное» резюме может охватывать две разные концепции:
Записи случайным образом разбиваются на складки, независимо от темы или времени.
Записи делятся на временные сгибы, при этом для обучения не используется сгиб, содержащий данные после начала контрольного сгиба.
В первом случае любые временные ряды ваших данных подвергаются риску, поскольку ваш обучающий набор может включать данные как до, так и после вашего тестового набора. Принцип обучения / тестирования заключается в том, что данные обучения представляют собой данные, известные к настоящему времени, а данные теста представляют собой еще невидимые данные (возможно, буквально из будущего).
Возможно, автокорреляция временных рядов ставит под угрозу вариант № 2. Возможно, временной элемент модели не очень важен, и поэтому «прошлые» и «будущие» наблюдения, вероятно, будут одинаковыми. В этих случаях ни # 1, ни # 2 - это путь.
Если есть только сезонность, а не тренды, кажется, что можно включать «будущее» в обучение для некоторых предметов, чтобы предсказывать новые предметы (на которых будет влиять та же сезонность). Если есть тенденции, обучение будущему должно научиться чему-то новому, чего вы действительно не знали бы при использовании модели в производстве.
В примере с ОП это звучит так, как будто это хорошо. Но если бы в модель входили тренды и проблемы временных рядов, я бы попытался использовать тематическое и временное разделение, чтобы вы тренировались по одному набору предметов до определенного момента времени, а затем тестировали по другим предметам после этот конкретный момент времени.
источник
Критическое различие , хотите ли вы:
Гораздо более распространенный случай - это номер дела (1). Например, насколько хорошо вы предсказываете сердечные приступы для человека, который входит в отделение неотложной помощи? И если вы в случае (1), вы почти наверняка должны сделать (а) перекрестную проверку по предметам, а не (б) перекрестную проверку по записям. Проведение валидации по записям в случае (1) может привести к необоснованно высоким, поддельным оценкам эффективности по новым предметам.
Я не совсем понимаю, что вы пытаетесь сделать (и, возможно, это самообучение, поэтому вопрос не совсем реалистичен). Я не знаю, в каком случае вы находитесь. Если вы находитесь в гораздо менее распространенном случае (2), проверка с точки зрения записи может быть в порядке.
Общая тема в статистике - тщательно продумать, что является независимым и что взаимосвязано. Вообще говоря, независимое наблюдение имеет тенденцию быть другим предметом. Если вы хотите предсказать результаты по новым предметам, вы должны проверить предметы, на которых вы не тренировались!
Почему предметная перекрестная проверка, а не запись?
В типичных условиях повторные наблюдения одного и того же человека коррелируют друг с другом даже после обусловливания особенностей. Следовательно, с помощью перекрестной проверки на основе записей ваш тестовый набор не зависит от вашего тренировочного набора! В крайнем случае идеальной корреляции у вас будут одни и те же наблюдения в тренировочном наборе и тестовом наборе! Вы будете тренироваться на тестовом наборе! Эффективность, измеренная в перекрестной проверке, не будет предсказывать эффективность по новым предметам.
Например, эта недавняя статья называет перекрестную проверку по записям «Машинное обучение вуду».
Что делать с таким небольшим количеством предметов, хотя ...
Возможно, некоторые комментаторы, более опытные в перекрестной проверке, чем я, могли бы принять участие, но для меня это выглядит как возможный кандидат для (иначе пропустить одну перекрестную проверку)?k=n
Чтобы максимизировать данные для обучения, вы можете оставить один предмет для перекрестной проверки. Каждую итерацию тестируйте на разных предметах и тренируйтесь на всех остальных.
Если все предметы очень разные, у вас может быть близко к и вы можете захотеть включить в тренировочный набор как можно больше независимых предметов.n=38
источник
Это действительно зависит от того, как вы представляете настройку, которую хотите эмулировать с разделением поезд / тест. Чтобы конкретизировать, скажем, в каждом ряду описывается качество сна субъекта за одну ночь.
Вполне возможно, что в будущем каждый субъект сначала придет в лабораторию сна и обеспечит вас качеством сна на несколько ночей. После этого вам нужно будет предсказать качество сна будущих ночей для этих субъектов . В этом случае вы бы использовали ваш вариант б). В
sklearn
, вы могли бы использоватьsklearn.model_selection.StratifiedShuffleSplit
Вполне возможно, что в будущем несколько испытуемых сначала придут в лабораторию сна и обеспечат вас качеством сна на несколько ночей. После этого вы должны будете предсказать качество сна будущих ночей для других субъектов . В этом случае вы бы использовали ваш вариант а). В
sklearn
, вы могли бы использоватьsklearn.cross_validation.LeavePLabelOut
источник
Чтобы принять участие, я предполагаю, что приложение должно предсказывать неизвестные предметы. Это означает (независимо от того, есть ли у вас временные ряды или по сути неупорядоченные повторные измерения), что необходимо выполнить разделение, чтобы проверить неизвестные объекты => разделение a)
Учитывая, что у вас есть только 38 предметов, вы должны подумать о проверке повторной выборки. Из моего опыта работы с такими же небольшими размерами выборки (хотя и с большим количеством функций), вот несколько рекомендаций в двух словах:
Пойдите для предметной-вне-начальной загрузки или повторной перекрестной проверки. Они позволяют оценить стабильность ваших моделей, что имеет решающее значение при небольших размерах выборки. Результаты могут даже использоваться для агрегированной модели в случае, если нестабильность является проблемой.
Вы не делать несмываемый одну тему-аут. Это не позволяет ни измерить стабильность модели, ни уменьшить ее. Кроме того, существуют ситуации, когда он подвержен большому пессимистическому смещению из-за небольшого размера выборки (в отличие от ожидаемого минимального пессимистического смещения).
Если вы используете типичные показатели качества, такие как точность, чувствительность, специфичность и т. Д., И задача состоит в том, чтобы правильно классифицировать объекты: имейте в виду, что ключевой проблемой является измерение производительности, поскольку неопределенность результатов теста зависит от абсолютного числа. тестовых случаев. Например, наблюдение 17 правильных прогнозов из 17 действительно положительных субъектов соответствует 95% доверительному интервалу для чувствительности в диапазоне от около 80% до 100%.
Другими словами, вы не сможете выполнять оптимизацию моделей на основе данных на этой основе.
Это также означает, что вам не нужно устанавливать разделение на три группы (вложенная перекрестная проверка), потому что вы будете тратить ресурсы на статистически бессмысленные сравнения здесь - ваша оптимизация почти гарантированно потерпит неудачу (хотя вы можете не заметить, что если вы не проверяйте стабильность).
Тот же самый расчет для биномиального доверительного интервала для предложенных 5 (3) испытуемых / оптимизирующих / проверяющих субъектов дает 95% Ки для всех правильных диапазонов вплоть до 50% (30%), поэтому на основе идеальных результатов теста ваш доверительный интервал все равно будет включать 50 / 50 гаданий!
Некоторые статьи, которые мы написали на эту тему:
Beleites, C .; Baumgartner, R .; Bowman, C .; Somorjai, R .; Штейнер, Г .; Salzer, R. & Sowa, MG Уменьшение дисперсии в оценке ошибки классификации с использованием разреженных наборов данных, Chemom Intell Lab Syst, 79, 91 - 100 (2005).
Beleites, C. & Salzer, R .: Оценка и повышение стабильности хемометрических моделей в ситуациях с небольшим размером выборки, Anal Bioanal Chem, 390, 1261-1271 (2008). DOI: 10.1007 / s00216-007-1818-6
Beleites, C. и Neugebauer, U. и Bocklitz, T. и Krafft, C. и Popp, J .: Планирование размера выборки для классификационных моделей. Anal Chim Acta, 2013, 760, 25-33. DOI: 10.1016 / j.aca.2012.11.007
принята рукопись на arXiv: 1211.1323
источник