Я изо всех сил пытаюсь четко понять различие между классификацией на основе пикселей и объектами в области дистанционного зондирования, и я надеюсь, что кто-то из этого сообщества сможет обеспечить понимание.
Основываясь на информации, которую я имею до сих пор, мое текущее понимание имеет следующие черты:
Классификация на основе пикселей : классификация выполняется на уровне каждого пикселя с использованием только спектральной информации, доступной для этого отдельного пикселя (т.е. значения пикселей в пределах местоположения игнорируются). В этом смысле каждый пиксель будет представлять обучающий пример для алгоритма классификации, и этот обучающий пример будет иметь форму n-мерного вектора, где n - число спектральных полос в данных изображения. Соответственно, обученный алгоритм классификации будет выводить прогноз класса для каждого отдельного пикселя в изображении.
Классификация на основе объектов. Классификация выполняется по локализованной группе пикселей с учетом пространственных свойств каждого пикселя, поскольку они связаны друг с другом. В этом смысле обучающий пример для алгоритма классификации будет состоять из группы пикселей, и обученный алгоритм классификации будет, соответственно, выводить прогноз класса для пикселей на групповой основе. Для грубого примера изображение может быть разделено на n сегментов одинакового размера, и тогда каждому сегменту будет присвоен класс (т. Е. Содержит объект / не содержит объект).
Является ли это мышление точным относительно значения этих терминов, или я что-то упустил?
Что касается классификации на основе пикселей, вы на месте. Каждый пиксель является n-мерным вектором и будет назначен некоторому классу в соответствии с некоторой метрикой, будь то использование машин опорных векторов, MLE, некоторый классификатор knn и т. Д.
Что касается региональных классификаторов, тем не менее, за последние несколько лет произошли огромные изменения, обусловленные сочетанием графических процессоров, огромных объемов данных, облака и широкой доступности алгоритмов благодаря росту с открытым исходным кодом (облегчается). по github). Одно из самых больших событий в компьютерном видении / классификации было в сверточных нейронных сетях (CNNs), Сверточные слои "изучают" объекты, которые могут быть основаны на цвете, как с традиционными пиксельными классификаторами, но также создают детекторы границ и все виды других экстракторов признаков, которые могут существовать в области пикселей (отсюда и сверточная часть), которую вы никогда не сможет извлечь из классификации на основе пикселей. Это означает, что они с меньшей вероятностью ошибочно классифицируют пиксель в середине области пикселей другого типа - если вы когда-либо проводили классификацию и получали лед в середине Амазонки, вы поймете эту проблему.
Затем вы применяете полностью подключенную нейронную сеть к «особенностям», извлеченным из сверток, чтобы фактически выполнить классификацию. Одним из других больших преимуществ CNN является то, что они не зависят от масштаба и поворота, так как между слоями свертки и уровнем классификации обычно имеются промежуточные слои, которые обобщают элементы, используя объединение и выпадение, чтобы избежать переобучения и помочь в решении проблем, связанных с этим. масштаб и ориентация.
Существует множество ресурсов по сверточным нейронным сетям, хотя лучшим должен быть класс Standord от Андрея Карпати , который является одним из пионеров в этой области, и вся серия лекций доступна на youtube .
Конечно, существуют другие способы борьбы с классификацией на основе пикселей и областей, но в настоящее время это современный подход, имеющий множество применений помимо классификации по дистанционному зондированию, например, машинный перевод и автомобили с автоматическим управлением.
Вот еще один пример региональной классификации с использованием Open Street Map для тегированных обучающих данных, включая инструкции по настройке TensorFlow и работе на AWS.
Вот пример использования Google Earth Engine классификатора, основанного на обнаружении краев, в данном случае для кругового орошения - с использованием не более чем гауссовского ядра и сверток, но опять-таки, демонстрирующих силу подходов, основанных на области / крае.
В то время как превосходство объекта над пиксельной классификацией достаточно широко признано, здесь есть интересная статья в Письмах Дистанционного зондирования, оценивающая эффективность объектной классификации .
Наконец, забавный пример, просто чтобы показать, что даже с региональными / сверточными классификаторами, компьютерное зрение все еще действительно трудно - к счастью, самые умные люди в Google, Facebook и т. Д. Работают над алгоритмами, чтобы иметь возможность определить разницу между собаки, кошки и разные породы собак и кошек. Так что те, кто интересуется дистанционным зондированием, могут спать спокойно ночью: D
источник
Очень простой ответ таков:
Если вы используете только спектральную информацию (интенсивность пикселей) в качестве обучающего набора, вы выполняете базовую классификацию пикселей.
Если вы используете как пространственную (соседние пиксели), так и спектральную информацию в качестве обучающего набора, вы выполняете базовую классификацию объектов (используя алгоритм на основе сегментации, например, DBScan). В Computer Vision этот DBScan используется для извлечения Superpixel.
Примечание: вы можете использовать спектральную информацию в любом смысле (размер, форма, контекст / текстура) для извлечения объектов.
Вы можете использовать разные подходы для извлечения объектов с использованием спектральной информации.
Основной вопрос заключается в том, как найти наиболее подходящий подход для извлечения признаков и применить эффективный алгоритм (обнаружение границ, спектральная сегментация, кластеризация) для поставленной задачи для извлечения информации из спектральной информации.
Можно подумать о матрице свертки, чтобы провести хороший анализ как спектральной, так и пространственной информации для создания обучающего набора.
Справка: Мои знания после более чем трехлетнего опыта работы в области дистанционного зондирования и ГИС-домена.
источник