Я ищу модель между запасами энергии и погодой. У меня есть цена на MWatt, купленная между странами Европы, и много ценностей на погоду (файлы Grib). Каждые часы на срок 5 лет (2011-2015).
Цена / день
Это в день на один год. У меня это по часам на 5 лет.
Пример погоды
3Dscatterplot, в кельвинах, на час. У меня есть 1000 значений на данные в час и 200 данных, таких как klevin, wind, геопунктура и т. Д.
Я пытаюсь спрогнозировать среднюю цену за час в МВт.
Мои данные о погоде очень плотные, более 10000 значений / час и так с высокой корреляцией. Это проблема коротких, больших данных.
Я попробовал методы Лассо, Риджа и SVR со средней ценой MWatt в качестве результата и данными о моей погоде как доходом. Я взял 70% в качестве тренировочных данных и 30% в качестве теста. Если данные моего теста не прогнозируются (где-то внутри данных тренировок), у меня хороший прогноз (R² = 0,89). Но я хочу сделать прогноз на моих данных.
Так что, если данные теста находятся в хронологическом порядке после моих данных тренировки, это ничего не предсказывает (R² = 0,05). Я думаю, что это нормально, потому что это время серии. И здесь много автокорреляции.
Я думал, что я должен был использовать модель серии времени как ARIMA. Я рассчитал порядок метода (серия является стационарной) и проверил его. Но это не работает. Я имею в виду, что прогноз имеет значение ² 0,05. Мой прогноз на данных теста совсем не на моих данных теста. Я попробовал метод ARIMAX с моей погодой в качестве регрессора. Положите это не добавляет никакой информации.
ACF / PCF, данные испытаний / поездов
Так что я сделал сезонное сокращение в день и в неделю
День
Неделя на тренде первой
И у меня может быть это, если я могу предопределить тенденцию тренда цены моей акции:
Синий - мое предсказание, а красный - реальная ценность.
Я собираюсь сделать регрессию со скользящим средним значением погоды в качестве дохода и тенденцией тренда цены акций в качестве результата. Но пока я не нашел никакого отношения.
Но если нет взаимодействия, как я могу знать, что ничего нет? может, просто я этого не нашел.
Ответы:
Возможно, вас заинтересует область формальной науки под названием «вычислительная механика». В статье Джеймса Крутчфилда и Дэвида Фельдмана они излагают программу вычислительной механики - насколько я понимаю - как разбор границ между (1) детерминистической неопределенностью и информационными затратами на вывод детерминированных отношений, (2) стохастическим неопределенность и информационная стоимость выведения вероятностных распределений, и (3) энтропийная неопределенность и последствия плохой информации.
Чтобы ответить на ваш вопрос напрямую (хотя и довольно широко, поскольку вы задали широкий вопрос), то, как мы узнаем, когда мы узнали «достаточно» или «все, что можем» из данных, является открытой областью исследования. Первое обязательно будет зависеть от потребностей исследователя и актера в мире (например, учитывая, сколько времени, сколько вычислительной мощности, сколько памяти, сколько срочности и т. Д.).
Я не разбираюсь в этой области, или даже глубоко в этой конкретной статье, но они некоторые крутые мыслители. :)
Крачфилд, JP и Фельдман, DP (2003). Невидимые закономерности, наблюдаемая случайность: уровни сходимости энтропии . Хаос , 13 (1): 25–54.
источник