Я строю нейронную сеть, чтобы предсказать ценность произведения искусства с широким диапазоном входных данных (размер, художественная среда и т. Д.), И я хотел бы также включить автора в качестве входных данных (это часто огромный фактор стоимости одного произведения искусства).
Моя текущая проблема заключается в том, что имя автора не является идеальным числовым вводом для NN (т. Е. Если я просто закодирую каждого автора с возрастающим целочисленным значением, я буду косвенно назначать большее значение авторам далее по списку -_-) , Я думал о том, чтобы создать отдельные входные данные для всех авторов в моем наборе данных, а затем просто использовать одну горячую кодировку, чтобы лучше представить входные данные для NN.
Однако этот подход сталкивается с проблемой, когда автор, который не включен в мои данные обучения, используется в качестве входных данных для NN (т.е. новый автор). Я могу обойти это с помощью поля ввода «другой автор», но я боюсь, что это не будет точным, поскольку я бы не обучил NN для этого ввода (все произведения искусства с оценкой имеют автора).
Я не до конца продумал это, но я подумал о том, чтобы, возможно, обучить 2 NN, один для оценки без автора и один для оценки у автора, чтобы убедиться, что у меня достаточно данных для обучения для «безаварийной оценки», чтобы она все еще была достаточно точной.
Я все еще пытаюсь осмыслить лучшую архитектуру NN, прежде чем застряну в реализации, поэтому, если у кого-то есть какие-либо предложения / комментарии, я был бы очень благодарен!
Заранее спасибо Винс
PS Я делаю это как небольшой конкурс с другом, чтобы проверить NN против традиционных коммерческих методов оценки. Пожалуйста, помогите мне получить победу в области компьютерных наук над актуарной наукой.
источник
Ответы:
Самым простым подходом, который я бы порекомендовал, было бы решение «горячего кодирования» без функции «другого автора». Если вы используете отсев во время обучения, сеть должна научиться работать с входными векторами, для которых не установлены какие-либо авторские функции, равные 1. Затем, когда у вас есть неизвестный автор, у вас просто не будет вообще никаких единиц. автора-особенности, и он должен был еще научиться справляться с этим.
Другим возможным подходом было бы горячее кодирование с функцией «другого автора». Чтобы по-прежнему получать данные о тренировках для этого веса, вы можете просто использовать увеличение данных. Наиболее простой способ дополнения данных для этого заключается в создании копий экземпляров в ваших обучающих данных, но для этих копий установите функцию «другого автора» на 1 вместо фактического автора.
Самым сложным решением, которое я могу придумать, было бы использование строкового представления автора, попытка заставить вашу программу найти информацию об этом авторе в Интернете (например, попытаться найти страницу википедии), протолкнуть весь этот текст через LSTM. Затем «выходной слой» LSTM можно объединить с другими вашими объектами (эти два вместе будут вашим «входным вектором»), сложить еще несколько слоев поверх этого и обучить весь процесс до конца. до конца. Если соревнование с вашим другом не требует серьезных денег, это, вероятно, будет слишком сложно, чтобы того стоить.
источник
Я бы попытался найти некоторые прокси-функции об авторе, а не кодировать личность автора. Вероятно, хорошими характеристиками автора являются средние другие характеристики работы (такие как размер, типы носителей и т. Д.), А также, что очень важно для вашего прогноза, некоторые статистические данные о предыдущих продажных ценах на любые работы. Не забывайте, что в исторических данных о тренировках включались прокси-данные в том виде, в каком они появились на момент продажи.
Наличие этих прокси, скорее всего, будет работать намного лучше, чем однозначное кодирование идентификатора автора и получение алгоритма ML для назначения весов на основе только идентификатора, особенно для авторов с небольшими объемами данных для их представления.
Насколько я знаю, нет особых оснований ожидать, что символьная строка имени автора будет соотноситься со значением произведения искусства. Там могут быть некоторые хорошие против плохих бренд имя эффекта, но я думаю , что будет очень трудно предсказать даже в отрыве от других факторов, и в том числе исторические данные о продажах должны учитывать эту и другие подобные эффекты, для художников, не имеющих известной истории , за исключением.
источник