Как использовать функции перекрестной проверки scikit-learn в классификаторах с несколькими метками

Я тестирую разные классификаторы на наборе данных, где есть 5 классов, и каждый экземпляр может принадлежать одному или нескольким из этих классов, поэтому я использую, в частности, многокомпонентные классификаторы scikit-learn sklearn.multiclass.OneVsRestClassifier. Теперь я хочу выполнить перекрестную проверку с помощью sklearn.cross_validation.StratifiedKFold. Это приводит к следующей ошибке:

Traceback (most recent call last):
  File "mlfromcsv.py", line 93, in <module>
    main()
  File "mlfromcsv.py", line 77, in main
    test_classifier_multilabel(svm.LinearSVC(), X, Y, 'Linear Support Vector Machine')
  File "mlfromcsv.py", line 44, in test_classifier_multilabel
    scores = cross_validation.cross_val_score(clf_ml, X, Y_list, cv=cv, score_func=metrics.precision_recall_fscore_support, n_jobs=jobs)
  File "/usr/lib/pymodules/python2.7/sklearn/cross_validation.py", line 1046, in cross_val_score
    X, y = check_arrays(X, y, sparse_format='csr')
  File "/usr/lib/pymodules/python2.7/sklearn/utils/validation.py", line 144, in check_arrays
    size, n_samples))
ValueError: Found array with dim 5. Expected 98816

Обратите внимание, что обучение классификатора с несколькими метками не приводит к сбою, но происходит перекрестная проверка. Как я должен выполнить перекрестную проверку для этого классификатора с несколькими метками?

Я также написал вторую версию, которая разбивает проблему на обучение и перекрестную проверку 5 отдельных классификаторов. Это работает просто отлично.

Вот мой код Функция test_classifier_multilabelдает проблемы. test_classifierэто моя другая попытка (разбить задачу на 5 классификаторов и 5 перекрестных проверок).

import numpy as np
from sklearn import *
from sklearn.multiclass import OneVsRestClassifier
from sklearn.neighbors import KNeighborsClassifier
import time

def test_classifier(clf, X, Y, description, jobs=1):
    print '=== Testing classifier {0} ==='.format(description)
    for class_idx in xrange(Y.shape[1]):
        print ' > Cross-validating for class {:d}'.format(class_idx)
        n_samples = X.shape[0]
        cv = cross_validation.StratifiedKFold(Y[:,class_idx], 3)
        t_start = time.clock()
        scores = cross_validation.cross_val_score(clf, X, Y[:,class_idx], cv=cv, score_func=metrics.precision_recall_fscore_support, n_jobs=jobs)
        t_end = time.clock();
        print 'Cross validation time: {:0.3f}s.'.format(t_end-t_start)
        str_tbl_fmt = '{:>15s}{:>15s}{:>15s}{:>15s}{:>15s}'
        str_tbl_entry_fmt = '{:0.2f} +/- {:0.2f}'
        print str_tbl_fmt.format('', 'Precision', 'Recall', 'F1 score', 'Support')
        for (score_class, lbl) in [(0, 'Negative'), (1, 'Positive')]:
            mean_precision = scores[:,0,score_class].mean()
            std_precision = scores[:,0,score_class].std()
            mean_recall = scores[:,1,score_class].mean()
            std_recall = scores[:,1,score_class].std()
            mean_f1_score = scores[:,2,score_class].mean()
            std_f1_score = scores[:,2,score_class].std()
            support = scores[:,3,score_class].mean()
            print str_tbl_fmt.format(
                lbl,
                str_tbl_entry_fmt.format(mean_precision, std_precision),
                str_tbl_entry_fmt.format(mean_recall, std_recall),
                str_tbl_entry_fmt.format(mean_f1_score, std_f1_score),
                '{:0.2f}'.format(support))

def test_classifier_multilabel(clf, X, Y, description, jobs=1):
    print '=== Testing multi-label classifier {0} ==='.format(description)
    n_samples = X.shape[0]
    Y_list = [value for value in Y.T]
    print 'Y_list[0].shape:', Y_list[0].shape, 'len(Y_list):', len(Y_list)
    cv = cross_validation.StratifiedKFold(Y_list, 3)
    clf_ml = OneVsRestClassifier(clf)
    accuracy = (clf_ml.fit(X, Y).predict(X) != Y).sum()
    print 'Accuracy: {:0.2f}'.format(accuracy)
    scores = cross_validation.cross_val_score(clf_ml, X, Y_list, cv=cv, score_func=metrics.precision_recall_fscore_support, n_jobs=jobs)
    str_tbl_fmt = '{:>15s}{:>15s}{:>15s}{:>15s}{:>15s}'
    str_tbl_entry_fmt = '{:0.2f} +/- {:0.2f}'
    print str_tbl_fmt.format('', 'Precision', 'Recall', 'F1 score', 'Support')
    for (score_class, lbl) in [(0, 'Negative'), (1, 'Positive')]:
        mean_precision = scores[:,0,score_class].mean()
        std_precision = scores[:,0,score_class].std()
        mean_recall = scores[:,1,score_class].mean()
        std_recall = scores[:,1,score_class].std()
        mean_f1_score = scores[:,2,score_class].mean()
        std_f1_score = scores[:,2,score_class].std()
        support = scores[:,3,score_class].mean()
        print str_tbl_fmt.format(
            lbl,
            str_tbl_entry_fmt.format(mean_precision, std_precision),
            str_tbl_entry_fmt.format(mean_recall, std_recall),
            str_tbl_entry_fmt.format(mean_f1_score, std_f1_score),
            '{:0.2f}'.format(support))

def main():
    nfeatures = 13
    nclasses = 5
    ncolumns = nfeatures + nclasses

    data = np.loadtxt('./feature_db.csv', delimiter=',', usecols=range(ncolumns))

    print data, data.shape
    X = np.hstack((data[:,0:3], data[:,(nfeatures-1):nfeatures]))
    print 'X.shape:', X.shape
    Y = data[:,nfeatures:ncolumns]
    print 'Y.shape:', Y.shape

    test_classifier(svm.LinearSVC(), X, Y, 'Linear Support Vector Machine', jobs=-1)
    test_classifier_multilabel(svm.LinearSVC(), X, Y, 'Linear Support Vector Machine')

if  __name__ =='__main__':
    main()

Я использую Ubuntu 13.04 и scikit-learn 0.12. Мои данные представлены в виде двух массивов (X и Y), которые имеют формы (98816, 4) и (98816, 5), то есть 4 объекта на экземпляр и 5 меток классов. Метки имеют значение 1 или 0 для обозначенного членства в этом классе. Использую ли я правильный формат, так как не вижу много документации по этому поводу?

cross-validation python multi-class scikit-learn multilabel chippies
источник

Ответы:

Стратифицированная выборка означает, что распределение членов класса сохраняется в вашей выборке KFold. Это не имеет большого смысла в случае с несколькими метками, когда ваш целевой вектор может иметь более одной метки на наблюдение.

В этом смысле существует две возможные интерпретации стратификации.

$n$ $\sum\limits_{i=1}^n2^n$

Другой вариант состоит в том, чтобы попытаться сегментировать обучающие данные, чтобы масса вероятности распределения векторов меток была приблизительно одинаковой по сгибам. Например

import numpy as np

np.random.seed(1)
y = np.random.randint(0, 2, (5000, 5))
y = y[np.where(y.sum(axis=1) != 0)[0]]


def proba_mass_split(y, folds=7):
    obs, classes = y.shape
    dist = y.sum(axis=0).astype('float')
    dist /= dist.sum()
    index_list = []
    fold_dist = np.zeros((folds, classes), dtype='float')
    for _ in xrange(folds):
        index_list.append([])
    for i in xrange(obs):
        if i < folds:
            target_fold = i
        else:
            normed_folds = fold_dist.T / fold_dist.sum(axis=1)
            how_off = normed_folds.T - dist
            target_fold = np.argmin(np.dot((y[i] - .5).reshape(1, -1), how_off.T))
        fold_dist[target_fold] += y[i]
        index_list[target_fold].append(i)
    print("Fold distributions are")
    print(fold_dist)
    return index_list

if __name__ == '__main__':
    proba_mass_split(y)

Чтобы получить нормальное обучение, тестируя индексы, которые производит KFold, вы хотите переписать, чтобы он возвращал np.setdiff1d каждого индекса с помощью np.arange (y.shape [0]), а затем обернул его в классе методом iter .

Джессика Мик
источник

Спасибо за это объяснение. Я просто хотел бы кое-что проверить, OneVsRestClassifierпринимает ли 2D-массив (например, yв вашем примере кода) или кортеж списков меток классов? Я спрашиваю, потому что я только что посмотрел на пример классификации нескольких ярлыков на scikit-learn и увидел, чтоmake_multilabel_classification функция возвращает набор списков меток классов, например, ([2], [0], [0, 2], [0]...)при использовании 3 классов?

чипсы

Это работает в обе стороны. Когда список кортежей пропущен, он соответствует sklearn.preprocessing.LabelBinarizer. Вы знаете, что некоторые алгоритмы работают в случае мультикласса с несколькими классами. В частности, RandomForest.

Джессика Мик

Большое спасибо, это, по крайней мере, помогло мне справиться с авариями. На данный момент я переключился на перекрестную проверку K-fold, но думаю, что скоро буду использовать ваш код. Теперь, однако, оценка, возвращаемая cross_val_score, имеет только два столбца, т. Е. Как будто есть только два класса. Переход к metrics.confusion_matrixполучению 2x2 матриц путаницы. Поддерживает ли какая-либо из метрик классификаторы с несколькими метками?

чипсы

Я ответил на свой собственный подвопрос. Метрики, которые поддерживают классификаторы с несколькими метками, появились только в scikit-learn 0.14-rc, поэтому мне придется обновляться, если я захочу эту способность или сделаю это сам. Спасибо за помощь и код.

чипсы

Я удалил массив в операторе возврата. Нет причины, по которой вы всегда найдете идеально разделенный набор точек данных. Дайте мне знать, если это сработает. Вы также должны написать несколько тестов в своем коде. Я вроде выдохнул этот алгоритм после того, как весь день смотрел на выпуклые алгоритмы оптимизации.

Джессика Мик

Возможно, вы захотите проверить: О стратификации данных с несколькими метками .

Здесь авторы сначала рассказывают простую идею выборки из уникальных наборов меток, а затем вводят новый подход итеративной стратификации для наборов данных с несколькими метками.

Подход итеративной стратификации жаден.

Для краткого обзора, вот что делает итеративная стратификация:

Сначала они узнают, сколько примеров должно быть в каждом из k-кратных элементов.

$i$ $j$ $c_i^j$ .
$l$ $D^l$
$D^l$ $k$ $c_k^j$ $l$ $l$
$k$ $c$

Основная идея состоит в том, чтобы сначала сосредоточиться на ярлыках, которые редки, эта идея исходит из гипотезы, что

«если редкие ярлыки не рассматриваются в приоритетном порядке, то они могут распространяться нежелательным образом, и это не может быть впоследствии исправлено»

Чтобы понять, как нарушаются связи и другие детали, я рекомендую прочитать статью. Кроме того, из раздела экспериментов я могу понять, что в зависимости от соотношения набор меток / примеры можно использовать уникальный набор меток или этот предложенный метод итеративной стратификации. Для более низких значений этого отношения распределение меток по складкам близко или лучше в нескольких случаях в качестве итерационной стратификации. Для более высоких значений этого отношения показано, что итеративная стратификация поддерживает лучшие распределения в складках.

phoxis
источник

ссылка на PDF упомянутой статьи: lpis.csd.auth.gr/publications/sechidis-ecmlpkdd-2011.pdf

Temak