Фокус этого вопроса
«Как ... мы можем обрабатывать данные из истинного распределения и данные из порождающей модели в одной и той же итерации?
Анализ Основополагающей Публикации
В указанной странице, Понимание генеративных состязательных сетей (2017 г.) , докторант Дэниел Sieta правильно ссылается Генеративная Состязательность сеть, Гудфелий, POUGET-Abadie, Мирза, Севайте, Warde-Фарел, Ozair, Courville и Bengio, июнь 2014 года . Это абстрактные состояния: «Мы предлагаем новую структуру для оценки генеративных моделей через состязательный процесс, в котором мы одновременно обучаем две модели ...» В этой оригинальной статье определены две модели, определенные как MLP (многослойные персептроны).
- Генеративная модель, G
- Дискриминационная модель, Д
Эти две модели контролируются таким образом, что одна обеспечивает форму отрицательной обратной связи с другой, поэтому используется термин «состязательный».
- G обучен, чтобы захватить распределение данных набора примеров достаточно хорошо, чтобы обмануть D.
- D обучен, чтобы определить, является ли его ввод макетами G или набором примеров для системы GAN.
(Набор примеров для системы GAN иногда называют реальными выборками, но они могут быть не более реальными, чем сгенерированные. Оба представляют собой числовые массивы в компьютере, один из которых имеет внутренний источник, а другой - внешний Происхождение. Независимо от того, являются ли внешние от камеры, направленной на какую-либо физическую сцену, это не относится к работе GAN.)
Вероятно, дурак D является синонимом максимизации вероятности того, что D будет генерировать столько ложных срабатываний и ложных отрицаний, сколько он исправляет классификации, по 50% каждый. В информатике это означает, что предел информации D имеет G, приближающийся к 0, когда t приближается к бесконечности. Это процесс максимизации энтропии G с точки зрения D, таким образом, термин кросс-энтропия.
Как достигается конвергенция
Поскольку функция потерь, воспроизведенная из записи Sieta за 2017 год в этом вопросе, - это функция D, предназначенная для минимизации перекрестной энтропии (или корреляции) между двумя распределениями применительно к полному набору точек для данного состояния обучения.
ЧАС( ( х1, у1) , D ) = 1Д ( х1)
Для G есть отдельная функция потерь, предназначенная для максимизации перекрестной энтропии. Обратите внимание, что в системе существует ДВА уровня детализации обучения.
- Это игра движется в игре с двумя игроками
- Это из учебных образцов
Они создают вложенную итерацию с внешней итерацией следующим образом.
- Тренировка G продолжается с использованием функции потерь G.
- Образцы вводных образцов генерируются из G в его текущем состоянии обучения.
- Обучение D продолжается с использованием функции потерь D.
- Повторите, если перекрестная энтропия еще не максимизирована, D все еще может различать.
Когда D окончательно проигрывает, мы достигли нашей цели.
- G восстановил распределение тренировочных данных
- D был сведен к неэффективности («вероятность 1/2 везде»)
Почему необходимо параллельное обучение
Если бы две модели не были обучены методам параллелизма, то конвергенция в состязательной плоскости (внешняя итерация) не произошла бы в уникальном решении, заявленном в статье 2014 года.
Дополнительная информация
Помимо этого, следующий интересный вопрос в статье Сиеты заключается в том, что «Плохая конструкция функции потерь генератора» может привести к недостаточным значениям градиента, чтобы вести спуск и производить то, что иногда называют насыщением. Насыщенность - это просто уменьшение сигнала обратной связи, которое направляет спуск при обратном распространении к хаотическому шуму, возникающему в результате округления с плавающей запятой. Термин происходит от теории сигнала.
Я предлагаю изучить статью 2014 Goodfellow et alia (опытные исследователи) чтобы узнать о технологии GAN, а не страницу 2017 года.
Вы можете рассматривать комбинацию
z
ввода иx
ввода как одну выборку и оценивать, насколько хорошо дискриминатор выполнил классификацию каждого из них.Вот почему пост позже разделяет один
y
наE(p~data)
иE(z)
- в основном, у вас разные ожидания (y
для каждого из входов дискриминатора, и вам нужно одновременно измерять оба, чтобы оценить, насколько хорошо работает дискриминатор.Вот почему функция потерь понимается как комбинация как положительной классификации реального ввода, так и отрицательной классификации отрицательного ввода.
источник