Во многих приложениях машинного обучения так называемые методы дополнения данных позволили построить лучшие модели. Например, предположим, тренировочный набор из изображений кошек и собак. Вращением, зеркальным отображением, регулировкой контрастности и т. Д. Можно создавать дополнительные изображения из исходных.
В случае изображений увеличение данных является относительно простым. Однако предположим (например), что у каждого есть обучающий набор из выборок и нескольких сотен непрерывных переменных, которые представляют разные вещи. Увеличение данных больше не кажется таким интуитивным. Что можно сделать в таком случае?
Ответы:
Я понимаю, что этот вопрос подразумевает как построение объектов, так и работу с множеством функций, которые у вас уже есть +, которые будут сконструированы относительно ваших наблюдений (
N << P
).Особенность конструкции
В дополнение к комментарию @ yasin.yazici, возможны несколько способов дополнения данных:
Я уверен, что я скучаю по многим другим.
Выбор характеристик / уменьшение размеров
Вы можете уменьшить размерность с помощью таких методов, как PCA (хотя, возможно, не после увеличения данных с помощью переменных PCA). В качестве альтернативы вы можете использовать алгоритмы, которые выполняют выбор функций для вас, такие как лассо, случайный лес и т. Д.
источник
Я столкнулся с аналогичной проблемой, когда хотел увеличить немаркированные числовые данные. Я добавил данные следующим образом: (скажем, у меня есть набор данных размером 100 * 10.)
источник