Я хочу исследовать поведение авиакомпаний в отношении ценообразования - особенно то, как авиакомпании реагируют на ценообразование конкурентов.
Как я сказал бы, мои знания о более сложном анализе довольно ограничены, я использовал в основном все основные методы для сбора общего представления о данных. Это включает в себя простые графики, которые уже помогают идентифицировать похожие шаблоны. Я также использую SAS Enterprise 9.4.
Однако я ищу более числовой подход.
Набор данных
Используемый мной (сам) собранный набор данных содержит около 54.000 тарифов. Все тарифы собирались в течение 60-дневного периода времени ежедневно (каждую ночь в 00:00).
Следовательно, каждый тариф в пределах этого временного интервала встречается раз в зависимости от наличия тарифа, а также даты вылета рейса, когда он проходит к дате сбора тарифа. (Вы не можете получить тариф за рейс, если дата вылета рейса была в прошлом)
Неформатированный, который выглядит в основном так: (поддельные данные)
+--------------------+-----------+--------------------+--------------------------+---------------+
| requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 915.32 | 16APR2015:13:20:02 | 23APR2015:21:55:04 | XH |
+--------------------+-----------+--------------------+--------------------------+---------------+
«DaysBeforeDeparture» рассчитывается через где
- I & интервал (дней до вылета)
- s & дата тарифа (отправление рейса)
- c & дата, когда тариф был собран
Вот пример сгруппированных данных, установленных I (DaysBeforeDep.) (Поддельные данные!):
+-----------------+------------------+------------------+------------------+------------------+
| DaysBefDeparture | AVG_of_sale | MIN_of_sale | MAX_of_sale | operatingCarrier |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 880.68 | 477.99 | 2,245.23 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 904.89 | 477.99 | 2,534.55 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 1,044.39 | 920.99 | 2,119.09 | LH |
+-----------------+------------------+------------------+------------------+------------------+
Что я придумал до сих пор
Глядя на линейные графики, я уже могу оценить, что у нескольких линий будет высокий коэффициент корреляции. Поэтому я попытался сначала использовать корреляционный анализ сгруппированных данных. Но так ли это? В основном я сейчас пытаюсь сделать корреляции по средним, а не по отдельным ценам? Есть ли другой способ?
Я не уверен, какая модель регрессии здесь подходит, поскольку цены не движутся в какой-либо линейной форме и кажутся нелинейными. Нужно ли мне приспосабливать модель к каждому ценовому изменению авиакомпании?
PS: это длинная текстовая стена. Если мне нужно что-то уточнить, дайте мне знать. Я новичок в этом сабе.
Кто-нибудь знает? :-)
В дополнение к исследовательскому анализу данных (EDA), как описательному, так и визуальному, я бы попытался использовать анализ временных рядов в качестве более всеобъемлющего и сложного анализа. В частности, я бы выполнил регрессионный анализ временных рядов . Анализ временных рядов является огромной исследовательской и практической областью, поэтому, если вы не знакомы с основами, я предлагаю начать с вышеупомянутой статьи в Википедии, постепенно искать более конкретные темы и читать соответствующие статьи, статьи и книги.
Поскольку анализ временных рядов является очень популярным подходом, он поддерживается большинством открытым исходным кодом и закрытым исходным кодом коммерческой науки данных и статистических средах (программное обеспечение) , таких как R , Python , SAS , SPSS и многие другие. Если вы хотите использовать R для этого, проверьте мои ответы об общем анализе временных рядов, а также о классификации и кластеризации временных рядов . Я надеюсь, что это полезно.
источник
ColumnUA(LH) 0.90435 <.0001 ColumnSQ 0.32544 <.0001 ColumnAF(DL) 0.55336 <.0001
я предполагаю, что такие результаты указывают на аналогичные ценовые модели. Что с помощью регрессионного анализа, что я узнаю?