Недавно я работал над проблемой, чтобы провести некоторый анализ затрат на определенный ресурс. Я обычно принимаю некоторые ручные решения из анализа и планирую соответственно.
У меня есть большой набор данных в формате Excel и с сотнями столбцов, определяющих использование ресурса в различных временных рамках и типах (другие различные подробные использования). У меня также есть информация о моих предыдущих 4-х летних данных и фактическом использовании ресурсов и стоимости, понесенной соответственно.
Я надеялся обучить NN заранее прогнозировать свои расходы и планировать еще до того, как смогу выполнить анализ затрат вручную.
Но самая большая проблема, с которой я сталкиваюсь, - это необходимость определить особенности такого анализа. Я надеялся, что есть какой-то способ идентифицировать функции из набора данных.
PS - У меня есть представление о PCA и некоторых других методах сокращения набора функций, и я обращаю внимание на способ их идентификации.
источник
Это отличный вопрос и, возможно, одна из самых сложных задач по ML.
У вас есть несколько вариантов:
надеюсь, это поможет
источник
Целесообразно рассмотреть не только соотношение использования ресурсов с затратами, но и отдачу от затрат на использование ресурсов. Типичная проблема заключается в том, что эти возвращения почти всегда кумулятивны или задерживаются. Случай накопления - это когда ресурс представляет собой непрерывную настройку или улучшение процесса, отсутствие которого замедляет получение дохода. Случай задержки - это когда ресурсы исследования несут затраты в течение определенного периода времени без влияния на доход, но получение дохода, которое начинается, если исследование дает продуктивные результаты, может быть существенным фактором, превышающим общую стоимость полученных результатов.
Причина, по которой данные о расходах сами по себе могут привести к дезадаптивному обучению сети, заключается в том, что сеть, которая обучена сокращению, например, маркетинговых расходов, обнулит их. Это обычно вызывает тенденцию к снижению продаж, пока бизнес не свернется. Без включения результатов в информацию об обучении не может быть полезного обучения.
Базовый MLP (многослойный персептрон) не будет изучать временные характеристики данных, аспекты накопления и задержки. Вам понадобится сеть с контролем состояния. Наиболее последовательно успешный тип сети для этого вида обучения на момент написания статьи - это тип сети LSTM (долговременная кратковременная память) или один из его производных вариантов. Данные о доходах и балансе должны использоваться в сочетании с данными о расходах для обучения сети прогнозированию бизнес-результатов для любой заданной последовательности предлагаемых ресурсов (полностью подробный бюджетный план).
Функция потерь должна правильно сбалансировать срок сортировки со среднесрочными и долгосрочными финансовыми целями. Отрицательные имеющиеся денежные средства должны вызывать явное увеличение функции потерь, с тем чтобы можно было узнать, как избежать основных рисков для репутации и стоимости кредита.
Какие столбцы в ваших данных имеют сильную корреляцию с рентабельностью инвестиций, сложно определить заранее. Вы можете немедленно исключить столбцы, которые соответствуют любому из следующих критериев.
Данные могут быть уменьшены другими способами
RBM (ограниченные машины Больцмана) могут извлекать функции из данных, а PCA могут освещать столбцы с низким содержанием информации, но значимость столбцов с точки зрения их корреляции с доходами не будет определяться с использованием этих устройств в их базовой форме.
источник