Я хотел бы знать, есть ли какие-либо / некоторые преимущества использования стратифицированной выборки вместо случайной выборки при разделении исходного набора данных на обучающий и тестовый набор для классификации.
Кроме того, дает ли стратифицированная выборка больше смещения в классификаторе, чем случайная выборка?
Приложение, для которого я хотел бы использовать стратифицированную выборку для подготовки данных, представляет собой классификатор случайных лесов, обученный на исходного набора данных. Перед классификатором есть также этап генерации синтетической выборки (SMOTE [1]), который уравновешивает размер классов.
[1] Чавла, Нитеш В. и др. « SMOTE: синтетическая техника избыточной выборки меньшинств ». Журнал исследований искусственного интеллекта 16 (2002): 321-357.