Как я могу улучшить свой анализ влияния репутации на голосование?

15

Недавно я провел некоторый анализ влияния репутации на положительные отзывы (см. Пост в блоге ), и впоследствии у меня возникло несколько вопросов о, возможно, более информативном (или более подходящем) анализе и графике.

Итак, несколько вопросов (и не стесняйтесь отвечать кому-то конкретно и игнорировать других):

В своем нынешнем воплощении я не имел ввиду центр номера поста. Я думаю, что это дает ложное представление об отрицательной корреляции на графике рассеяния, поскольку в нижней части счетчика постов появляется больше постов (вы видите, что этого не происходит на панели Jon Skeet, только у смертных пользователей). панель). Разве это не уместно не центрировать номер поста (поскольку я имею в виду центрировать балл по среднему баллу пользователя)?
Из графиков должно быть очевидно, что оценка сильно искажена (и среднее центрирование не изменилось). При подгонке линии регрессии я подбираю как линейные модели, так и модель с использованием ошибок Губер-Уайта (с помощью rlmпакета MASS R ), и это не имеет никакого значения в оценках наклона. Должен ли я рассмотреть преобразование данных вместо надежной регрессии? Обратите внимание, что любое преобразование должно учитывать вероятность 0 и отрицательных оценок. Или я должен был использовать какой-то другой тип модели для подсчета данных вместо OLS?
Я считаю, что последние две графики, в целом, можно улучшить (и это также связано с улучшенными стратегиями моделирования). По моему (измученному) мнению, я бы заподозрил, что если репутационные эффекты реальны, они будут реализованы довольно рано в истории постеров (полагаю, что если это правда, они могут быть пересмотрены), вы дали несколько отличных ответов, так что теперь я буду голосовать за все ваши сообщения "вместо" репутации по общему количеству "эффектов). Как я могу создать графику, чтобы продемонстрировать, является ли это правдой, принимая во внимание избыточный график? Я подумал, что, может быть, хороший способ продемонстрировать это будет соответствовать модели формы;

Y = β_{0} + β_{1} (X_{1}) + α_{1} (Z_{1}) + α_{2} (Z_{2}) \dots α_{k} (Z_{k}) + γ_{1} (Z_{1} * X_{1}) \dots γ_{k} (Z_{k} * X_{1}) + ϵ

$Y = \beta_0 + \beta_1(X_1) + \alpha_1(Z_1) + \alpha_2(Z_2) \cdots \alpha_k(Z_k) + \gamma_1(Z_1*X_1) \cdots \gamma_k(Z_k*X_1) + \epsilon$

где - это (то же, что и в текущих точках рассеяния), - это , а - фиктивные переменные, представляющие некоторый произвольный диапазон номеров (например, равен, если номер сообщения равен , равен, если номер поста и т. д.). и - это термин большой перехват и ошибка соответственно. Затем я бы просто изучил предполагаемые наклоны, чтобы определить, появились ли эффекты репутации на ранних этапах истории плакатов (или графически отобразить их). Это разумный (и уместный) подход? $Y$ score - (mean score per user) $X_1$ post number $Z_1 \cdots Z_k$ $Z_1$ 11 through 25 $Z_2$ 126 through 50 $\beta_0$ $\epsilon$ $\gamma$

Кажется популярным подгонять некоторые типы непараметрических линий сглаживания к диаграммам рассеяния, подобным этим (таким как лесс или сплайны), но мои эксперименты со сплайнами не выявили ничего поучительного (любые свидетельства положительных эффектов на ранних этапах истории плакатов были незначительными и временными к числу сплайнов, которые я включил). Поскольку у меня есть гипотеза о том, что эффекты возникают на ранних стадиях, мой подход к моделированию выше разумнее, чем сплайны?

Также обратите внимание, что хотя я в значительной степени извлекла все эти данные, есть еще много других сообществ, которые нужно изучить (и некоторые из них, такие как superuser и serverfault, имеют одинаково большие выборки, чтобы извлечь из них), поэтому вполне разумно предложить в будущем анализ, который я использую протяженный образец, чтобы исследовать любые отношения.

data-visualization large-data fixed-effects-model Энди У
источник

В настоящее время я сделал несколько заметок по первому вопросу, и их можно найти здесь . В настоящий момент я не уверен, должен ли я просто опубликовать это как ответ на свой вопрос или открыть отдельный вопрос (поскольку это в основном сфокусировано на визуализации данных). Но не стесняйтесь оставлять мне комментарий о документе Google здесь или в чате .

Энди W

14

Это смелая попытка, но с одними только этими данными будет трудно или невозможно ответить на ваш исследовательский вопрос о «влиянии репутации на голоса противников». Проблема заключается в разделении эффектов других явлений, которые я перечисляю вместе с краткими указаниями на то, как их можно устранить.

Учебные эффекты . Когда репутация растет, опыт растет; по мере накопления опыта мы ожидаем, что человек будет публиковать лучшие вопросы и ответы; поскольку их качество улучшается, мы ожидаем больше голосов за пост. Вероятно, одним из способов справиться с этим в анализе будет выявление людей, которые активны на нескольких сайтах SE . На любом конкретном сайте их репутация будет расти медленнее, чем количество их опыта, таким образом обеспечивая ручку для разделения репутации и учебных эффектов.
Временные изменения в контексте. Это бесчисленное множество, но очевидные из них будут включать
- Изменения числа избирателей с течением времени , включая общую тенденцию к росту, сезонные тенденции (часто связанные с академическими циклами) и выбросы (возникающие из-за внешней рекламы, такой как ссылки на конкретные темы). Любой анализ должен учитывать это при оценке тенденций в репутации для любого человека .
- Изменения в нравах сообщества с течением времени . Сообщества, и как они взаимодействуют, развиваются и развиваются. Со временем они могут иметь тенденцию голосовать более или менее часто. Любой анализ должен был бы оценить этот эффект и учесть его .
- Само время. С течением времени более ранние сообщения остаются доступными для поиска и продолжают набирать голоса. Таким образом, caeteris paribus , старые посты должны приносить больше голосов, чем новые. (Это сильный эффект: некоторые люди, постоянно занимающие лидирующие позиции в ежемесячных лигах репутации, не посещали этот сайт весь год!). Любой анализ должен учитывать длительность каждого сообщения на сайте .
Тема популярности. Некоторые теги (например, r ) гораздо более популярны, чем другие. Таким образом, изменения в типах вопросов, на которые человек отвечает, могут быть смешаны с временными изменениями, такими как эффект репутации. Поэтому любой анализ должен учитывать природу ответов на вопросы.
Просмотры [добавлено как редактирование]. Вопросы просматриваются разными людьми по разным причинам (фильтры, ссылки и т. Д.). Возможно, что количество голосов, полученных ответами, связано с количеством просмотров, хотя можно ожидать уменьшения пропорции по мере увеличения количества просмотров. (Это вопрос того, сколько людей действительно интересуются этим вопросом, а не целым числом. Мой собственный - случайный - опыт показывает, что примерно половина голосов, которые я получаю по многим вопросам, приходится на первые 5-15 просмотры, хотя в конечном итоге вопросы просматриваются сотни раз.) Следовательно, любой анализ должен учитывать количество просмотров, но, вероятно, не линейно.
Трудности измерения. «Репутация» - это сумма голосов, полученных за различные действия: начальную репутацию, ответы, вопросы, одобрение вопросов, редактирование тегов вики, отрицательное голосование и отрицательное голосование (в порядке убывания значения). Поскольку эти компоненты оценивают разные вещи, и не все находятся под контролем избирателей сообщества, их следует разделить для анализа . «Эффект репутации», по-видимому, связан с голосами против, и, возможно, с вопросами, но не должен влиять на другие источники репутации. Начальная репутация определенно должна быть вычтена (но, возможно, может использоваться в качестве прокси для некоторого начального количества опыта).
Скрытые факторы Может быть много других мешающих факторов, которые невозможно измерить. Например, существуют различные формы «выгорания» при участии в форумах. Что люди делают после первых нескольких недель, месяцев или лет энтузиазма? Некоторые возможности включают сосредоточение на редких, необычных или сложных вопросах; предоставление ответов только на оставшиеся без ответа вопросы; предоставлять меньше ответов, но более высокого качества; и т. д. Некоторые из них могут маскировать эффект репутации, тогда как другие могут быть ошибочно спутаны с одним. Примером таких факторов могут быть изменения в показателях участия отдельного лица : они могут сигнализировать об изменениях в характере постов этого человека.
Подобщественные явления. Пристальный взгляд на статистику, даже на очень активных страницах SE, показывает, что относительно небольшое количество людей делает большую часть ответов и голосования. Клика от двух до трех человек может оказать глубокое влияние на рост репутации. Клики из двух человек будут обнаружены встроенными мониторами сайта (и одна такая группа существует на этом сайте), но более крупные клики, вероятно, не будут. (Я не говорю о формальном сговоре: люди могут быть членами таких клик, даже не подозревая об этом.) Как мы можем отделить видимый эффект репутации от действий этих невидимых, необнаруженных, неформальных клик? Подробные данные голосования могут быть использованы для диагностики, но я не думаю, что у нас есть доступ к этим данным.
Ограниченные данные. Чтобы обнаружить эффект репутации, вам, вероятно, нужно сосредоточиться на людях с десятками или сотнями постов (по крайней мере). Это сокращает текущее население до менее чем 50 человек. При всей вероятности вариаций и путаницы это слишком мало, чтобы выявить значительные эффекты, если они действительно не очень сильны. Суть в том, чтобы дополнить набор данных записями с других сайтов SE .

Учитывая все эти сложности, должно быть ясно, что исследовательская графика в статье блога имеет мало шансов раскрыть что-либо, если это явно не очевидно. Ничто не прыгает на нас: как и ожидалось, данные являются запутанными и сложными. Пока преждевременно рекомендовать улучшения графиков или представленного анализа: постепенные изменения и дополнительный анализ не помогут, пока эти фундаментальные проблемы не будут решены .

Whuber
источник

Спасибо за ответ. Учитывая широту критики, я не смогу должным образом рассмотреть все предложения в комментариях (мне нужно будет подумать о другом месте, возможно, просто опубликовать другой документ Google). Но я скажу теперь, что я не думаю, что невозможно ответить (до такой степени, что любой может ответить на что-либо с данными наблюдений, такими как этот). Как минимум, учитывая ограничения возможных путаниц, можно увидеть, соответствуют ли эффекты репутации имеющимся доказательствам.

Энди Ш

@ Энди, я думаю, что смешивание является существенным и повсеместным, так что даже если это выглядит как эффект репутации, это может быть артефактом: вы не сможете сделать какой-либо обоснованный вывод, если не решите эти проблемы. Конечно, я могу ошибаться, но бремя доказывания лежит на вас.

whuber

«если это выглядит как эффект репутации» - это ключевое утверждение (как я его вижу). Большинство ошибок, которые вы представили, будут либо неоднозначно связаны с репутацией / номером поста / историей постеров, либо теоретически ожидается, что они повысят баллы постеров по ответам позже в их истории. Если я не нахожу доказательств влияния на репутацию, многие из возможных проблем не могут быть использованы для объяснения его отсутствия.

Энди Ш

@Andy Но, по крайней мере, можно, и этого достаточно. К ним относятся скрытые факторы, популярность предмета и временные изменения в контексте. Если вы не будете обрабатывать все это в анализе, ваши выводы будут подозрительными. Взгляд на записи показывает, что предметная популярность и временные изменения огромны; их потенциальное влияние затмевает то, что мы можем разумно ожидать, что влияние на репутацию будет на порядок выше.

whuber

2

@cardinal, даже без формального определения, было бы возможно для небольшого числа людей оказать заметное влияние на схемы голосования (что я и предполагаю, что подразумевается в этом контексте). Средний пост Джона Скита был всего 5 с чем-то против. Если вдруг один человек решит отозвать все свои ответы, это может оказать довольно существенное влияние, учитывая низкий средний балл для начала.

Энди W

5

$Y_t$ $Z_t$ $Y_t = a_0 + a_1 Y_{t-1} + a_2 Z_{t-1} + \epsilon_t$ $Z_t = b_0 + b_1 Y_{t-1} + b_2 Z_{t-1} + \delta_t$ $a_2$ $Z$ $Y$ $Z$ $Y$ $t$ $\Delta Y_t = Y_t - Y_{t-1}$ $Y_t$ $F$ $\chi^2$ $T^{-1}$ $T^{-1/2}$ $Y_t$ $Z_t$ $a_0$ $a_1$ $a_2$

По пункту 1: если вы выполняли фиксированные эффекты вручную, вы должны были центрировать и переменную ответа, и объясняющие переменные. Пакет регрессии данных панели сделал бы это для вас, но официальный эконометрический способ взглянуть на вещи состоит в том, чтобы вычесть регрессию «между» из регрессии «пула» (см. Черную книгу Вулдриджа ; я не проверял второе издание, но я обычно рассматриваю первое издание как лучшее описание эконометрических данных в виде учебников).

По вашей точке 2: конечно, стандартные ошибки Eicker / White не повлияют на ваши оценки; если они это сделают, это будет указывать на неправильную реализацию! В контексте временных рядов еще более подходящая оценка связана с Ньюи и Уэстом (1987) . Попытки преобразования могут помочь. Я лично большой поклонник трансформации Бокса-Кокса, но в контексте анализа, который вы проводите, трудно сделать это чисто. Во-первых, вам потребуется параметр смещения поверх параметра формы, и параметры смещения, как известно, трудно идентифицировать в моделях, подобных этой. Во-вторых, вам, вероятно, понадобятся разные параметры смещения / формы для разных людей, и / или разных постов, и / или ... (все чертовски свободно). Данные подсчета тоже возможны, но в контексте среднего моделирования регрессия Пуассона так же хороша, как и логарифмическое преобразование, но она предполагает громоздкое предположение о дисперсии = среднее.

PS Вы, вероятно, можете пометить это с помощью «продольных данных» и «временных рядов».

Stask
источник

спасибо за ответ, и несколько комментариев / вопросов. Я согласен, что я должен был по крайней мере изучить более явный подход временных рядов в этих данных (я даже не проверял, есть ли какие-либо доказательства автокорреляции в остатках). Есть еще несколько сложностей, хотя при моделировании временных рядов этих данных (что такое t?, А сама оценка является динамической, а не фиксированной по количеству записей), также не было бы необходимости в регрессии, предсказывающей Z_t, я прекрасно знаю, что такое Z_t это функция!

Энди У,

Также я очень сомневаюсь, что оценка не является стационарной, что заставляет вас думать, что это так?

Энди W

По крайней мере, это, вероятно, гетероскедастично: некоторые посты интересны, получают много обращений и много голосов, в то время как другие - небольшие пояснения или RTFM - тип вопросов / ответов типа «Читать эту ссылку». Это само по себе сделало бы его нестационарным. Конечно, стационарность - это проверяемое предположение, но с такими сумасшедшими данными, как эти, вы, вероятно, захотите быть в полной безопасности, будучи чрезмерно консервативными в методах анализа (или, как я уже говорил, осознавать, что результаты могут быть странно).

StasK

Я немного смущен последним комментарием. Как внешние факторы, влияющие на оценку ответа, делают серию гетероскедастичной (я предполагаю, что вы имеете в виду, что дисперсия оценки становится больше / меньше с номером поста?), И какое отношение это имеет к рассматриваемому вопросу?

Энди У,

Временной ряд является стационарным, если предельные распределения во всех точках времени одинаковы. Таким образом, даже если у вас может быть то же самое среднее значение, изменяющаяся дисперсия сделает серию нестационарной. Примером являются модели (G) ARCH, за которые в начале 2000-х годов был вручен Нобелевский приз. Но в этих данных я бы также ожидал некоторые сдвиги в среднем. Если аудитория сайта растет, то при заданном качестве ответа вы, скорее всего, увидите больше голосов за него, что, вероятно, повысит как среднее значение, так и дисперсию оценок.

StasK

3

Несколько других изменений в заговорах:

Квантильные полосы для оценки ответа по сравнению с предыдущей репутацией. (Участки 1 и 3)
Графики плотности для скитов по сравнению с другими, стратифицированные по посту № (график 3)
Рассмотрим стратификацию по количеству конкурирующих постов
Стратификация по времени (можно продолжать набирать очки еще долго после того, как вопрос задан)

Моделировать это будет сложнее. Вы могли бы рассмотреть регрессию Пуассона. Честно говоря, разработка хороших сюжетов - гораздо лучший метод развития знаний и навыков. Начните моделирование после того, как у вас будет лучшее понимание данных.

Итератор
источник

(+1) После того, как пост оставался на некоторое время, я понял, что визуализация плотности точек представляется гораздо лучшим решением, чем попытка визуализировать сами точки (хотя я не совсем уверен, что вы подразумеваете под "стратификацией сообщение # "). Я также думаю, что построение расчетных квантилей звучит как хорошая идея, хотя для графиков 1 и 2 это, скорее всего, будет просто в массивном облаке. Опять же, я не знаю, что означает «стратификация по времени» в этом контексте, см. Комментарий Брэда Ларсона к сообщению в блоге и мой ответ по этому поводу.

Энди Ш

Также я очень сомневаюсь, что конкурирующие сообщения имеют какое-либо отношение к наблюдаемым отношениям. Как вы думаете, люди, которые имеют высокую репутацию, опубликовали в темах с более конкурирующими ответами ранее в своей истории? Ваши предложения о включении других ковариат, по-видимому, противоречат предложению избегать моделирования и сосредоточиться на графиках.

Энди Ш

Идея, стоящая за конкурирующими постами, носит исследовательский характер. Мотивация к ответу не имеет к этому никакого отношения. Что касается моделирования, это не значит, что я против моделирования как такового, а в том, что вы еще не готовы сделать это, пока не разберетесь в данных. Если вы не понимаете данные, вы не поймете модели.

Итератор

Посредством стратификации по посту # я предлагаю вам удалить эти посты. Это может быть интервальная шкала, например, 0-100 постов, 101-200 и т. Д. Или квантильная шкала: разделите пользователей на пользователей из нижних 10% от общего числа постов, 20% и т. Д. Потому что Skeet имеет так много постов, что лучше сравнивать его с его группой сверстников, но трудно сравнить его с группой коллег с точно таким же числом постов - объединение данных может помочь.

Итератор

Кстати, для стратификации вы можете использовать coplot().

Итератор

1

Вау там. (И я имею в виду это хорошим способом ;-)) Прежде чем идти дальше с моделями, вам необходимо рассмотреть, что происходит с данными.

Я не вижу объяснения очень своеобразной кривой в середине этого графика: http://stats.blogoverflow.com/files/2011/07/Rep_Correlated_With_Upvotes.png

Видя такую кривую, я думаю, что в этих точках есть что-то очень странное - они не зависят друг от друга и вместо этого отражают некоторую последовательность наблюдений одного и того же источника.

(Небольшое примечание: название этого сюжета "Корреляция ..." вводит в заблуждение.)

Итератор
источник

5

2

$2$

3

$3$

Эта кривая может быть объяснена природой того, как репутация связана с голосами против, и, скорее всего, это люди, которые опубликовали один ответ и получили всю репутацию благодаря этому единственному ответу (я могу более подробно объяснить, почему это, вероятно, имеет место в случае необходимости). , Если бы я изобразил текущую репутацию за вычетом репутации из самого последнего поста, это по большей части позаботилось бы об этом (также эти наблюдения не имеют никакого отношения к последующему анализу). Вы хотите уточнить, что корреляция вводит в заблуждение?

Энди W

@ whuber, я не думаю, что скажу что-нибудь ниже 10 ^ 3, это просто шум. Конечно, теория влияния на репутацию должна быть применима к ситуации, когда репутация отсутствует. Я также приветствую любые предложенные улучшения сюжетов (на каждом из них не так много информации!)

Энди В

Благодарю. Для заголовка нет расчета корреляции. Это просто точечный график маргинальной оценки против репутации. За исключением того, что, как вы и @whuber упоминаете, на самом деле это не предельная оценка: это должно быть deltaRep (или Rep (t) - Rep (t-1)) против Rep (t-1).

Итератор

1

@Iterator, исправьте последнее утверждение (10 баллов за голосование), но все равно кажется, что вы можете запутаться в том, что я планирую, с другим утверждением. Ось Y - это не репутация, а количество голосов за последнее сообщение (это не обязательно, Rep(t) - Rep(t-1)поскольку пользователи могут получить репутацию из других мест), ось X - текущая репутация (включая репутацию, полученную из этого сообщения). Ось X - это то, что я предложил заменить (вычитая голоса, полученные от ответа на вопрос, который я нанес на ось Y).

Энди Ш

Как я могу улучшить свой анализ влияния репутации на голосование?

Ответы: