Возможно, это очень простой вопрос, но я, похоже, не смог найти на него убедительного ответа. Я надеюсь здесь, я могу.
В настоящее время я читаю статьи в качестве подготовки к моей собственной магистерской диссертации. В настоящее время я читаю статью, в которой исследуется связь между твитами и особенностями фондового рынка.
В одной из своих гипотез они предполагают, что «увеличение объема твита связано с увеличением объема торговли».
Я ожидаю, что они, в парных корреляциях, будут коррелировать tweetVolume
с tradingVolume
, но вместо этого они сообщают, используя зарегистрированные версии: LN(tweetVolume)
и LN(tradingVolume)
.
Для моей диссертации я повторил этот кусочек их статьи. Я собрал твиты около 100 компаний за 6 месяцев ( tweetVolume
) и объем торгов акциями за тот же период. Если я сопоставляю абсолютные переменные, я нахожу, r=.282, p.000
но когда я использую зарегистрированные версии, я нахожу r=.488, p=.000
.
Я не понимаю, почему исследователи иногда используют зарегистрированные версии своих переменных и почему корреляция кажется намного выше, если вы делаете это. В чем причина и почему можно использовать зарегистрированные переменные?
Ваша помощь очень ценится :-)
Ответы:
Причины использования зарегистрированных переменных делятся на две категории: статистические и существенные.
Статистически, если ваши переменные имеют перекос вправо (то есть они имеют длинный хвост в верхнем конце), то такой показатель, как корреляция или регрессия, может сильно зависеть от одного или нескольких случаев в верхнем конце на одном или обоих переменные (выбросы, точки влияния, влиятельные точки). Взятие журнала может помочь этому, уменьшая или устраняя перекос.
По существу, некоторые понятия лучше рассматривать с точки зрения соотношений, чем различий. Возьмите две меры громкости, которые вы обсуждаете. Теперь сравните две компании: одна - небольшая компания, торгующая на NASDAQ, о которой мало кто слышал, другая - мегакорпорация. Первый получит очень мало твитов в день. Последний получит много; аналогично для объема торгов. Предположим (просто чтобы выбрать цифры), что компания А обычно получает 100 твитов в день, а последняя получает 100 000.
Если количество твитов компании А увеличится со 100 до 500 (разница 400, соотношение 5), это огромные новости - что-то должно происходить. Но если компания B поднимется с 100 000 до 100 400 (разница 400, соотношение очень близко к 1), никого не волнует. Грубый эквивалент был бы, если бы он пошел от 100 000 до 500 000.
источник