Недавно я провел некоторый анализ влияния репутации на положительные отзывы (см. Пост в блоге ), и впоследствии у меня возникло несколько вопросов о, возможно, более информативном (или более подходящем) анализе и графике.
Итак, несколько вопросов (и не стесняйтесь отвечать кому-то конкретно и игнорировать других):
В своем нынешнем воплощении я не имел ввиду центр номера поста. Я думаю, что это дает ложное представление об отрицательной корреляции на графике рассеяния, поскольку в нижней части счетчика постов появляется больше постов (вы видите, что этого не происходит на панели Jon Skeet, только у смертных пользователей). панель). Разве это не уместно не центрировать номер поста (поскольку я имею в виду центрировать балл по среднему баллу пользователя)?
Из графиков должно быть очевидно, что оценка сильно искажена (и среднее центрирование не изменилось). При подгонке линии регрессии я подбираю как линейные модели, так и модель с использованием ошибок Губер-Уайта (с помощью
rlm
пакета MASS R ), и это не имеет никакого значения в оценках наклона. Должен ли я рассмотреть преобразование данных вместо надежной регрессии? Обратите внимание, что любое преобразование должно учитывать вероятность 0 и отрицательных оценок. Или я должен был использовать какой-то другой тип модели для подсчета данных вместо OLS?Я считаю, что последние две графики, в целом, можно улучшить (и это также связано с улучшенными стратегиями моделирования). По моему (измученному) мнению, я бы заподозрил, что если репутационные эффекты реальны, они будут реализованы довольно рано в истории постеров (полагаю, что если это правда, они могут быть пересмотрены), вы дали несколько отличных ответов, так что теперь я буду голосовать за все ваши сообщения "вместо" репутации по общему количеству "эффектов). Как я могу создать графику, чтобы продемонстрировать, является ли это правдой, принимая во внимание избыточный график? Я подумал, что, может быть, хороший способ продемонстрировать это будет соответствовать модели формы;
где - это (то же, что и в текущих точках рассеяния), - это , а - фиктивные переменные, представляющие некоторый произвольный диапазон номеров (например, равен, если номер сообщения равен , равен, если номер поста и т. д.). и - это термин большой перехват и ошибка соответственно. Затем я бы просто изучил предполагаемые наклоны, чтобы определить, появились ли эффекты репутации на ранних этапах истории плакатов (или графически отобразить их). Это разумный (и уместный) подход?score - (mean score per user)
post number
1
1 through 25
1
26 through 50
Кажется популярным подгонять некоторые типы непараметрических линий сглаживания к диаграммам рассеяния, подобным этим (таким как лесс или сплайны), но мои эксперименты со сплайнами не выявили ничего поучительного (любые свидетельства положительных эффектов на ранних этапах истории плакатов были незначительными и временными к числу сплайнов, которые я включил). Поскольку у меня есть гипотеза о том, что эффекты возникают на ранних стадиях, мой подход к моделированию выше разумнее, чем сплайны?
Также обратите внимание, что хотя я в значительной степени извлекла все эти данные, есть еще много других сообществ, которые нужно изучить (и некоторые из них, такие как superuser и serverfault, имеют одинаково большие выборки, чтобы извлечь из них), поэтому вполне разумно предложить в будущем анализ, который я использую протяженный образец, чтобы исследовать любые отношения.
Ответы:
Это смелая попытка, но с одними только этими данными будет трудно или невозможно ответить на ваш исследовательский вопрос о «влиянии репутации на голоса противников». Проблема заключается в разделении эффектов других явлений, которые я перечисляю вместе с краткими указаниями на то, как их можно устранить.
Учебные эффекты . Когда репутация растет, опыт растет; по мере накопления опыта мы ожидаем, что человек будет публиковать лучшие вопросы и ответы; поскольку их качество улучшается, мы ожидаем больше голосов за пост. Вероятно, одним из способов справиться с этим в анализе будет выявление людей, которые активны на нескольких сайтах SE . На любом конкретном сайте их репутация будет расти медленнее, чем количество их опыта, таким образом обеспечивая ручку для разделения репутации и учебных эффектов.
Временные изменения в контексте. Это бесчисленное множество, но очевидные из них будут включать
Изменения числа избирателей с течением времени , включая общую тенденцию к росту, сезонные тенденции (часто связанные с академическими циклами) и выбросы (возникающие из-за внешней рекламы, такой как ссылки на конкретные темы). Любой анализ должен учитывать это при оценке тенденций в репутации для любого человека .
Изменения в нравах сообщества с течением времени . Сообщества, и как они взаимодействуют, развиваются и развиваются. Со временем они могут иметь тенденцию голосовать более или менее часто. Любой анализ должен был бы оценить этот эффект и учесть его .
Само время. С течением времени более ранние сообщения остаются доступными для поиска и продолжают набирать голоса. Таким образом, caeteris paribus , старые посты должны приносить больше голосов, чем новые. (Это сильный эффект: некоторые люди, постоянно занимающие лидирующие позиции в ежемесячных лигах репутации, не посещали этот сайт весь год!). Любой анализ должен учитывать длительность каждого сообщения на сайте .
Тема популярности. Некоторые теги (например, r ) гораздо более популярны, чем другие. Таким образом, изменения в типах вопросов, на которые человек отвечает, могут быть смешаны с временными изменениями, такими как эффект репутации. Поэтому любой анализ должен учитывать природу ответов на вопросы.
Просмотры [добавлено как редактирование]. Вопросы просматриваются разными людьми по разным причинам (фильтры, ссылки и т. Д.). Возможно, что количество голосов, полученных ответами, связано с количеством просмотров, хотя можно ожидать уменьшения пропорции по мере увеличения количества просмотров. (Это вопрос того, сколько людей действительно интересуются этим вопросом, а не целым числом. Мой собственный - случайный - опыт показывает, что примерно половина голосов, которые я получаю по многим вопросам, приходится на первые 5-15 просмотры, хотя в конечном итоге вопросы просматриваются сотни раз.) Следовательно, любой анализ должен учитывать количество просмотров, но, вероятно, не линейно.
Трудности измерения. «Репутация» - это сумма голосов, полученных за различные действия: начальную репутацию, ответы, вопросы, одобрение вопросов, редактирование тегов вики, отрицательное голосование и отрицательное голосование (в порядке убывания значения). Поскольку эти компоненты оценивают разные вещи, и не все находятся под контролем избирателей сообщества, их следует разделить для анализа . «Эффект репутации», по-видимому, связан с голосами против, и, возможно, с вопросами, но не должен влиять на другие источники репутации. Начальная репутация определенно должна быть вычтена (но, возможно, может использоваться в качестве прокси для некоторого начального количества опыта).
Скрытые факторы Может быть много других мешающих факторов, которые невозможно измерить. Например, существуют различные формы «выгорания» при участии в форумах. Что люди делают после первых нескольких недель, месяцев или лет энтузиазма? Некоторые возможности включают сосредоточение на редких, необычных или сложных вопросах; предоставление ответов только на оставшиеся без ответа вопросы; предоставлять меньше ответов, но более высокого качества; и т. д. Некоторые из них могут маскировать эффект репутации, тогда как другие могут быть ошибочно спутаны с одним. Примером таких факторов могут быть изменения в показателях участия отдельного лица : они могут сигнализировать об изменениях в характере постов этого человека.
Подобщественные явления. Пристальный взгляд на статистику, даже на очень активных страницах SE, показывает, что относительно небольшое количество людей делает большую часть ответов и голосования. Клика от двух до трех человек может оказать глубокое влияние на рост репутации. Клики из двух человек будут обнаружены встроенными мониторами сайта (и одна такая группа существует на этом сайте), но более крупные клики, вероятно, не будут. (Я не говорю о формальном сговоре: люди могут быть членами таких клик, даже не подозревая об этом.) Как мы можем отделить видимый эффект репутации от действий этих невидимых, необнаруженных, неформальных клик? Подробные данные голосования могут быть использованы для диагностики, но я не думаю, что у нас есть доступ к этим данным.
Ограниченные данные. Чтобы обнаружить эффект репутации, вам, вероятно, нужно сосредоточиться на людях с десятками или сотнями постов (по крайней мере). Это сокращает текущее население до менее чем 50 человек. При всей вероятности вариаций и путаницы это слишком мало, чтобы выявить значительные эффекты, если они действительно не очень сильны. Суть в том, чтобы дополнить набор данных записями с других сайтов SE .
Учитывая все эти сложности, должно быть ясно, что исследовательская графика в статье блога имеет мало шансов раскрыть что-либо, если это явно не очевидно. Ничто не прыгает на нас: как и ожидалось, данные являются запутанными и сложными. Пока преждевременно рекомендовать улучшения графиков или представленного анализа: постепенные изменения и дополнительный анализ не помогут, пока эти фундаментальные проблемы не будут решены .
источник
По пункту 1: если вы выполняли фиксированные эффекты вручную, вы должны были центрировать и переменную ответа, и объясняющие переменные. Пакет регрессии данных панели сделал бы это для вас, но официальный эконометрический способ взглянуть на вещи состоит в том, чтобы вычесть регрессию «между» из регрессии «пула» (см. Черную книгу Вулдриджа ; я не проверял второе издание, но я обычно рассматриваю первое издание как лучшее описание эконометрических данных в виде учебников).
По вашей точке 2: конечно, стандартные ошибки Eicker / White не повлияют на ваши оценки; если они это сделают, это будет указывать на неправильную реализацию! В контексте временных рядов еще более подходящая оценка связана с Ньюи и Уэстом (1987) . Попытки преобразования могут помочь. Я лично большой поклонник трансформации Бокса-Кокса, но в контексте анализа, который вы проводите, трудно сделать это чисто. Во-первых, вам потребуется параметр смещения поверх параметра формы, и параметры смещения, как известно, трудно идентифицировать в моделях, подобных этой. Во-вторых, вам, вероятно, понадобятся разные параметры смещения / формы для разных людей, и / или разных постов, и / или ... (все чертовски свободно). Данные подсчета тоже возможны, но в контексте среднего моделирования регрессия Пуассона так же хороша, как и логарифмическое преобразование, но она предполагает громоздкое предположение о дисперсии = среднее.
PS Вы, вероятно, можете пометить это с помощью «продольных данных» и «временных рядов».
источник
Несколько других изменений в заговорах:
Моделировать это будет сложнее. Вы могли бы рассмотреть регрессию Пуассона. Честно говоря, разработка хороших сюжетов - гораздо лучший метод развития знаний и навыков. Начните моделирование после того, как у вас будет лучшее понимание данных.
источник
coplot()
.Вау там. (И я имею в виду это хорошим способом ;-)) Прежде чем идти дальше с моделями, вам необходимо рассмотреть, что происходит с данными.
Я не вижу объяснения очень своеобразной кривой в середине этого графика: http://stats.blogoverflow.com/files/2011/07/Rep_Correlated_With_Upvotes.png
Видя такую кривую, я думаю, что в этих точках есть что-то очень странное - они не зависят друг от друга и вместо этого отражают некоторую последовательность наблюдений одного и того же источника.
(Небольшое примечание: название этого сюжета "Корреляция ..." вводит в заблуждение.)
источник
Rep(t) - Rep(t-1)
поскольку пользователи могут получить репутацию из других мест), ось X - текущая репутация (включая репутацию, полученную из этого сообщения). Ось X - это то, что я предложил заменить (вычитая голоса, полученные от ответа на вопрос, который я нанес на ось Y).