Что такое наземная истина

30

В контексте машинного обучения я часто видел термин « Основополагающая истина» . Я много искал и нашел следующее определение в Википедии :

В машинном обучении термин «наземная истина» относится к точности классификации учебного набора для контролируемых методов обучения. Это используется в статистических моделях для подтверждения или опровержения гипотез исследования. Термин «наземное обучение» относится к процессу сбора надлежащих объективных (доказуемых) данных для этого теста. Сравните с золотым стандартом.

Байесовская фильтрация спама является распространенным примером контролируемого обучения. В этой системе алгоритм обучается вручную разнице между спамом и не спамом. Это зависит от основополагающей правды сообщений, используемых для обучения алгоритма - неточности в основополагающей истине будут коррелировать с неточностями в результирующих вердиктах о спаме / не спаме.

Дело в том, что я действительно не могу понять, что это значит. Это метка, используемая для каждого объекта данных или целевой функции, которая присваивает метку каждому объекту данных , или, может быть, что-то еще?

СМИ
источник

Ответы:

25

Основная истина - это то, что вы измерили для своей целевой переменной для примеров обучения и тестирования.

Почти все время вы можете спокойно относиться к этому так же, как к этикетке.

В некоторых случаях это не совсем то же самое, что и этикетка. Например, если вы дополняете свой набор данных, существует небольшая разница между основной правдой (вашими фактическими измерениями) и тем, как расширенные примеры соотносятся с назначенными вами метками. Однако это различие обычно не является проблемой.

Земная правда может быть неправильной. Это измерение, и в нем могут быть ошибки. В некоторых сценариях ОД это также может быть субъективное измерение, когда трудно определить основную объективную истину - например, мнение эксперта или анализ, который вы надеетесь автоматизировать. Любая модель ML, которую вы тренируете, будет ограничена качеством основополагающей истины, используемой для ее обучения и проверки, и это является частью объяснения в цитате Википедии. Именно поэтому опубликованные статьи о ML должны включать полное описание того, как были собраны данные.

Нил Слэйтер
источник
Можно ли изменить или создать gt (например, в случае проблем с сегментацией) или создать его с учетом информации, полученной (например, из карт оценок) из функций?
Alex
@ Алекс: Не обычно. Могут быть некоторые обстоятельства, когда один пересмотренный вывод или полуавтоматический процесс создает основную истину для следующего алгоритма в конвейере. Однако, если вы имеете в виду алгоритм, пересматривающий свои собственные цели по какому-то правилу, то это обычно не считается новой основной истиной - вместо этой основной истины будут исходные сегментации, предусмотренные для обучения. Любое умное автоматическое уточнение будет частью модели.
Нил Слейтер
Уточнение взаимодействия с человеком или тех исходных данных, не относящихся к изображению (например, некоторые исходные изображения генерируются с использованием трехмерной модели, что может создать намного лучшую «истинную» сегментацию), может стать новой истиной в этой области. Хотя, возможно, вы захотите отделить идею наземной истины 1-го поколения, которая использовалась для построения первой модели, от базовой истины 2-го поколения, которая прошла через итерацию и использовалась для построения второй модели, даже если вторая модель имеет ту же архитектуру, обучен на обратной связи.
Нил Слейтер
«обучен обратной связи» - близко, но не совсем. Если вы видели модель FCN, последний слой - это карта очков, которая подключена к функции log softmax loss вместе с картой gt. Что я делаю, так это беру карту оценок, извлекаю из нее некоторые данные (например, количество двоичных объектов argmax) и (как-то) модифицирую маску gt перед тем, как подключить ее к функции потерь. Насколько это законно?
Alex
@ Алекс: Это часть твоей модели, а не новая правда. Если вы не решите, произвольно, что целью новой модели является изучение вашей комбинированной функции. В этом случае это основная истина для новой модели - однако, вы должны определенно отметить сложный источник этих данных, так как они были автоматически изменены по сравнению с исходным измерением.
Нил Слэйтер
2

Основная правда: это реальность, которую вы хотите, чтобы ваша модель предсказывала.

Он может иметь некоторый шум, но вы хотите, чтобы ваша модель изучала базовый шаблон в данных, который вызывает эту основную истину. Практически, ваша модель никогда не сможет предсказать основную правду, поскольку наземная истина также будет иметь некоторый шум, и ни одна модель не дает стопроцентной точности, но вы хотите, чтобы ваша модель была как можно ближе.

Вивек Хетан
источник