Есть ли литература, перечисляющая характеристики алгоритмов, которые позволяют их объяснять?
Единственная литература, о которой я знаю, это недавняя статья Риберо, Сингха и Гестрина. Сначала они определяют объяснимость одного прогноза:
Под «объяснением предсказания» мы подразумеваем представление текстовых или визуальных артефактов, которые обеспечивают качественное понимание взаимосвязи между компонентами экземпляра (например, словами в тексте, заплатками на изображении) и предсказанием модели.
Авторы далее уточняют, что это означает для более конкретных примеров, а затем используют это понятие для определения объяснимости модели. Их цель состоит в том, чтобы попытаться, так сказать, искусственно добавить объяснимость к другим непрозрачным моделям, а не сравнивать объяснимость существующих методов. Документ может быть полезен в любом случае, так как он пытается ввести более точную терминологию вокруг понятия «объяснимость».
Существуют ли общепринятые модели машинного обучения, представляющие хороший компромисс между ними?
Я согласен с @Winter, что упругая сеть для (не только логистической) регрессии может рассматриваться как пример хорошего компромисса между точностью предсказания и объяснимостью.
Для другого типа области приложения (временные ряды) другой класс методов также обеспечивает хороший компромисс: Байесовское структурное моделирование временных рядов. Он наследует объяснимость от классического структурного моделирования временных рядов, а некоторую гибкость от байесовского подхода. Как и в случае логистической регрессии, объяснению помогают регрессионные уравнения, используемые для моделирования. Смотрите эту статью для хорошего применения в маркетинге и дальнейших ссылок.
Что касается только что упомянутого байесовского контекста, вы также можете взглянуть на вероятностные графические модели. Их объяснимость основана не на уравнениях регрессии, а на графических способах моделирования; см. «Вероятностные графические модели: принципы и методы» Коллера и Фридмана для большого обзора.
Я не уверен, можем ли мы ссылаться на байесовские методы выше как на «общепринятый хороший компромисс». Они могут быть недостаточно известны для этого, особенно по сравнению с примером эластичной сетки.
Я предполагаю, что, будучи хорошим в прогнозировании, вы имеете в виду возможность уместить нелинейности, присутствующие в данных, будучи достаточно устойчивыми к переобучению. Компромисс между интерпретируемостью и способностью предсказывать эти нелинейности зависит от данных и задаваемого вопроса. В науке о данных действительно нет бесплатного обеда, и ни один алгоритм не может считаться лучшим для любого набора данных (и то же самое относится к интерпретируемости).
Общее правило должно заключаться в том, что чем больше алгоритмов вы знаете, тем лучше для вас, так как вам будет легче адаптироваться к вашим конкретным потребностям.
Если бы мне пришлось выбирать свою любимую для классификации задачу, которую я часто использую в бизнес-среде, я бы выбрал эластичную сеть для логистической регрессии . Несмотря на твердое предположение о процессе, который генерирует данные, его можно легко перенести в данные благодаря условию регуляризации, поддерживающему его интерпретируемость из базовой логистической регрессии.
Я бы посоветовал вам выбрать хорошо написанную книгу, в которой описаны часто используемые алгоритмы машинного обучения, а также их плюсы и минусы в различных сценариях. Примером такой книги могут быть «Элементы статистического обучения » Т. Хасти, Р. Тибширани и Дж. Фридмана
источник
Возможно, посмотрите мой ответ относительно необоснованной эффективности ансамблей и компромиссов между объяснением и предсказанием. Минимальная длина сообщения (MML, Wallace 2005) дает формальное определение объяснения в терминах сжатия данных и мотивирует ожидание того, что объяснения обычно подходят без переобучения, а хорошие объяснения дают хорошие, обобщаемые предсказания. Но это также затрагивает формальную теорию, почему ансамбли будут предсказывать лучше - результат, восходящий к (Solomonoff 1964) по оптимальному прогнозированию и свойственный полностью байесовским подходам: интегрировать по апостериорному распределению, а не просто выбирать среднее значение, медиану, или режим.
источник