Несмотря на то, что все изображения в наборе данных MNIST центрированы с одинаковым масштабом и обращены вверх без поворотов, у них есть существенный разброс рукописного текста, который удивляет меня, как линейная модель достигает такой высокой точности классификации.
Насколько я могу визуализировать, учитывая значительные различия в почерке, цифры должны быть линейно неразделимы в пространстве размером 784, то есть должна быть небольшая сложная (хотя и не очень сложная) нелинейная граница, которая разделяет разные цифры. Аналогично хорошо цитируемому примеру где положительный и отрицательный классы не могут быть разделены никаким линейным классификатором. Мне кажется непонятным, как мультиклассовая логистическая регрессия дает такую высокую точность с полностью линейными характеристиками (без полиномиальных особенностей).
Например, для любого пикселя на изображении различные рукописные варианты цифр и могут сделать этот пиксель подсвеченным или нет. Следовательно, с набором изученных весов каждый пиксель может сделать цифру как так и . Только с комбинацией значений пикселей можно сказать, является ли цифра или . Это верно для большинства пар цифр. Итак, как же логистическая регрессия, которая слепо основывает свое решение независимо от всех значений пикселей (без учета каких-либо межпиксельных зависимостей вообще), способна достичь такой высокой точности.
Я знаю, что где-то ошибаюсь или просто переоцениваю различия в изображениях. Тем не менее, было бы здорово, если бы кто-то мог помочь мне с интуицией о том, как цифры «почти» линейно разделимы.
источник
Ответы:
tl; dr Несмотря на то, что это набор данных для классификации изображений, он остается очень простой задачей, для которой можно легко найти прямое сопоставление от входных данных до предсказаний.
Ответ:
Это очень интересный вопрос, и благодаря простоте логистической регрессии вы действительно можете найти ответ.
Что логистическая регрессия делает для каждого изображения, принимает входных данных и умножает их на веса, чтобы сгенерировать его прогноз. Интересно то, что из-за прямого отображения между входом и выходом (то есть без скрытого слоя) значение каждого веса соответствует тому, насколько каждый из входов учитывается при вычислении вероятности каждого класса. Теперь, взяв веса для каждого класса и изменив их на (т.е. разрешение изображения), мы можем сказать, какие пиксели наиболее важны для вычисления каждого класса .784 784 28×28
Обратите внимание, опять же, что это веса .
Теперь взгляните на изображение выше и сфокусируйтесь на первых двух цифрах (то есть ноль и одна). Синие веса означают, что интенсивность этого пикселя вносит большой вклад в этот класс, а красные значения означают, что он вносит отрицательный вклад.
А теперь представьте, как человек рисует ? Он рисует пустую круглую форму между ними. Это именно то, что поднял вес. На самом деле, если кто-то рисует середину изображения, оно считается отрицательным как ноль. Поэтому для распознавания нулей вам не нужны сложные фильтры и высокоуровневые функции. Вы можете просто посмотреть на нарисованные позиции пикселей и судить по этому.0
То же самое для . Он всегда имеет прямую вертикальную линию в середине изображения. Все остальное считается отрицательно.1
Остальные цифры немного сложнее, но с небольшим воображением вы можете увидеть , , и . Остальные цифры немного сложнее, что фактически ограничивает логистическую регрессию от достижения высоких 90-х.2 3 7 8
Благодаря этому вы можете видеть, что логистическая регрессия имеет очень хорошие шансы получить много изображений правильно, и поэтому она так высоко оценивается.
Код для воспроизведения приведенного выше рисунка немного устарел, но здесь вы идете:
источник