Наиболее интерпретируемые модели классификации

10

За исключением деревьев решений и логистической регрессии, какие другие модели классификации обеспечивают хорошую интерпретацию? Меня не интересует точность или другие параметры, важна только интерпретация результатов.

Мирослав Сабо
источник
Вы должны быть заинтересованы в точности или параметрах хотя бы немного. Иначе зачем вообще классифицировать?
Кодиолог
Вы заинтересованы в этом, чтобы увидеть связь между функциями и классами?
Джем Калионку
@CemKalyoncu Да, это тоже часть интерпретации.
Мирослав Сабо

Ответы:

30

1) Я бы сказал, что деревья решений не так интерпретируемы, как это делают люди. Они выглядят интерпретируемыми, поскольку каждый узел представляет собой простое двоичное решение. Проблема в том, что когда вы спускаетесь по дереву, каждый узел является условным на каждом узле над ним. Если ваше дерево имеет только четыре или пять уровней, все равно не так уж сложно преобразовать путь одного конечного узла (четыре или пять разделений) во что-то интерпретируемое (например, «этот узел отражает долгосрочных клиентов, которые являются мужчинами с высоким доходом и несколькими учетными записями»). "), но пытаться отслеживать несколько терминальных узлов сложно.

Если все, что вам нужно сделать, это убедить клиента в том, что ваша модель интерпретируема («посмотрите, в каждом круге есть простое решение« да / нет », легко понять, нет?»), То я бы оставил деревья решений в вашем списке , Если вы хотите действенной интерпретируемости, я бы посоветовал, чтобы они не попали в точку.

2) Другая проблема заключается в разъяснении того, что вы подразумеваете под «интерпретируемостью результатов». Я столкнулся с интерпретируемостью в четырех контекстах:

  1. Клиент в состоянии понять методологию. (Не то, о чем вы спрашиваете.) Случайный лес довольно просто объясним по аналогии, и большинство клиентов чувствуют себя комфортно с ним, как только его объясняют просто.

  2. Объясняя, как методология соответствует модели. (У меня был клиент, который настоял, чтобы я объяснил, как устроено дерево решений, потому что они чувствовали, что это поможет им понять, как использовать результаты более разумно. После того, как я сделал очень хорошую запись, с множеством хороших диаграмм, они отбросили тему. Это совсем не полезно для интерпретации / понимания.) Опять же, я считаю, что это не то, о чем вы спрашиваете.

  3. После подбора модели интерпретируют то, что модель «верит» или «говорит» о предикторах. Вот где дерево решений выглядит интерпретируемым, но гораздо сложнее, чем первые впечатления. Логистическая регрессия здесь довольно проста.

  4. Когда конкретный пункт данных классифицируется, объясняя, почему это решение было принято. Почему ваша логистическая регрессия говорит, что вероятность мошенничества составляет 80%? Почему в вашем дереве решений говорится, что оно с низким уровнем риска? Если клиент удовлетворен распечаткой узлов решений, ведущих к терминальному узлу, это легко сделать для дерева решений. Если «почему» нужно суммировать в человеческой речи («этот человек имеет низкий риск, потому что он является долгосрочным клиентом мужского пола, у которого высокий доход и несколько счетов в нашей фирме»), это намного сложнее.

Таким образом, на одном уровне интерпретируемости или объяснимости (№ 1 с небольшим № 4, выше), K-Nearest Neighbor прост: «этот клиент был оценен как высокий риск, потому что 8 из 10 клиентов, которые были ранее оценены и были наиболее аналогичные им с точки зрения X, Y и Z, были сочтены высоким риском ". На действенном, полном уровне # 4 это не так интерпретируемо. (Я подумал о том, чтобы на самом деле представить им остальных 8 клиентов, но это потребовало бы от них детального изучения этих клиентов, чтобы вручную выяснить, что общего у этих клиентов и, следовательно, что общего у них с ними).

Недавно я прочитал несколько статей об использовании методов, подобных анализу чувствительности, чтобы попытаться придумать автоматические объяснения типа # 4. У меня нет под рукой, хотя. Возможно, кто-то может закинуть несколько ссылок в комментарии?

Wayne
источник
1
Отличный, вдумчивый комментарий к искусству представления анализов технически неискушенной и / или неисчислимой аудитории.
Майк Хантер
1
+6, всеобъемлющий и проницательный ответ на довольно простой, прямой вопрос. Напомни мне через пару дней, и я вознагражу за это.
gung - Восстановить Монику
@ Уэйн, вот статья, которая предлагает автоматические объяснения типа # 4: arxiv.org/abs/1602.04938
безумие
7

Это зависит от данных, которые вы используете. Если вы не заинтересованы в точности, я считаю, что визуализация данных и классификации являются одним из лучших способов интерпретации данных и производительности алгоритма.

Вот пример сравнения различных классификаторов. Каждая строка представляет собой отдельный набор данных с данными, имеющими различную разделимость. Каждый столбец является визуализацией каждого классификатора.

введите описание изображения здесь

http://scikit-learn.org/stable/auto_examples/classification/plot_classifier_comparison.html

ode2k
источник
5

Дискриминантный анализ - это оригинальная классификационная модель, созданная Р.А. Фишером более ста лет назад ( https://en.wikipedia.org/wiki/Linear_discriminant_analysis ). В современном мире машинных и статистических моделей обучения это слишком часто игнорируется, поскольку его заменяют подходы, которые в большей степени согласуются с последним жаргоном.

Эта статья была в Журнале машинного обучения и содержит список некоторых других методов : нужны ли нам сотни классификаторов для решения проблем классификации в реальном мире? http://jmlr.org/papers/volume15/delgado14a/delgado14a.pdf

Майк Хантер
источник
0

Чтобы найти отношения между объектами и классами, вы можете использовать методы отношений. Вы также можете использовать метод хи-квадрат, чтобы определить, связана ли функция с классом. Чтобы сделать это, вы должны использовать равенство меток классов. Например, если вы тестируете функцию 1 и класс 1, вы должны выполнить биннинг для функции 1 и вычислить chi ^ 2 между двоичными вероятностями и переменной членства, которая имеет значение 1, если класс равен 1, в противном случае - 0. Таким образом, если принадлежность к классу 1 зависит от функции 1, некоторые ячейки будут иметь более высокий уровень принадлежности к классу 1, тогда как некоторые ячейки будут иметь более низкую.

Дополнительный метод, который я попробовал с умеренным успехом, состоял в том, чтобы добавить особенность класса в нормальное распределение. Затем для каждой выборки в классе улучшите оценку функции, подгоняя выборку к распределению. За каждый образец не в классе, оштрафовать функцию для фитнеса. Очевидно, вам нужно нормализовать количество образцов, которые находятся в классе, а не в классе. Это работает только для функций, которые распространяются близко к нормальному распределению. Я использовал этот метод, чтобы назначить оценку за функцию для каждого класса.

Джем Калионку
источник
0

Никто не упомянул классификацию ближайших соседей. Это очень просто объяснить; наблюдение классифицируется в соответствии с наиболее распространенным классом среди наиболее близких к нему наблюдений. Обычно мы выбираем нечетное количество ближайших соседей, чтобы не было разрыва связи.

JDL
источник
2
> Никто не упомянул классификацию ближайших соседей. В самом деле? Вы должны прочитать ответы еще раз.
Alleo
Хорошо, я думаю, маргинальная метка сюжета примерно имеет значение. Тем не менее, NN - это самый простой для объяснения метод, особенно если ваша аудитория совсем не математична.
JDL