Да , я думаю, что прогнозирование тегов является интересным, и у вас есть хороший шанс на «успех».
Ниже приведены некоторые мысли, которые могут помочь в мозговом штурме и дальнейшем изучении этой темы. Я думаю, что есть много потенциально интересных направлений, которые может принять такой проект. Я предполагаю, что серьезная попытка только одного или двух из приведенных ниже может привести к более чем адекватному проекту, и вы, скорее всего, зададите более интересные вопросы, чем те, которые я задал.
Я собираюсь очень широко взглянуть на то, что считается машинным обучением . Несомненно, некоторые из моих предложений будут лучше классифицированы как исследовательский анализ данных и более традиционный статистический анализ . Но, возможно, это немного поможет, если вы сформулируете свои интересные вопросы. Вы заметите, я пытаюсь ответить на вопросы, которые, на мой взгляд, были бы интересны с точки зрения улучшения функциональности сайта. Конечно, есть и много других интересных вопросов, которые могут не касаться дружелюбия сайта.
- Базовый описательный анализ поведения пользователей : я предполагаю, что существует очень четкая циклическая недельная схема участия пользователей на этом сайте. Когда сайт получает больше всего трафика? Как выглядит график участия пользователя на сайте, скажем, стратифицированный по часам за неделю? Вы хотите скорректировать потенциальные изменения общей популярности сайта с течением времени. Это приводит к вопросу, как изменилась популярность сайта с момента его создания? Как участие «типичного» пользователя меняется со временем с момента присоединения? Я предполагаю, что в начале он довольно быстро нарастает, затем на плато, и, вероятно, через несколько недель после присоединения присоединится к югу.
- Оптимальное представление вопросов и ответов . Понимание первого вопроса, естественно, приводит к некоторым более интересным (в смысле ML) вопросам. Скажем, у меня есть вопрос, на который мне нужен ответ. Если я хочу максимизировать свою вероятность получения ответа, когда я должен представить его? Если я отвечаю на вопрос и хочу максимально увеличить количество голосов, когда я должен представить свой ответ? Может быть, ответы на эти два очень разные. Как это зависит от темы вопроса (скажем, например, как определено соответствующими тегами)?
- Сложность пользователей и тем : какие пользователи наиболее похожи по своим интересам, опять же, возможно, по меткам? Какие темы наиболее похожи в зависимости от того, какие пользователи участвуют? Можете ли вы придумать хорошую визуализацию этих отношений? В ответ можно попытаться предсказать, какой пользователь (пользователи), скорее всего, отправит ответ на конкретный вопрос. (Представьте, что вы предоставляете такую технологию SE, чтобы пользователи могли получать уведомления о потенциально интересных вопросах, а не просто на основе тегов.)
- Кластеризация ответчиков по поведению . Кажется, что существует несколько различных базовых поведенческих моделей, касающихся того, как ответчики используют этот сайт. Можете ли вы придумать функции и алгоритм кластеризации для кластеризации ответчиков в соответствии с их поведением. Являются ли кластеры интерпретируемыми?
- Предлагая новые теги : Можете ли вы предложить предложения для новых тегов, основанные на выводе тем из вопросов и ответов, находящихся в настоящее время в базе данных. Например, я считаю, что тег [смесь-модель] был недавно добавлен, потому что кто-то заметил, что мы получаем кучу связанных вопросов. Но, похоже, информационно-поисковый подход должен быть в состоянии извлечь такие темы напрямую и потенциально предложить их модераторам.
- Полусопровождаемое изучение географических местоположений : ( Этот может быть немного обидчивым с точки зрения конфиденциальности. ) Некоторые пользователи перечисляют, где они находятся. Другие нет. Используя шаблоны использования и, возможно, словарный запас и т. Д., Можете ли вы установить географическую доверительную область для местоположения каждого пользователя? Интуитивно кажется, что это будет (намного) более точным с точки зрения долготы, чем широты.
- Автоматическая пометка возможных дубликатов и очень связанных вопросов . На сайте уже есть аналогичная функция с соответствующей панелью в правом поле. Поиск почти точных дубликатов и предложение их может быть полезным для модераторов. Делать это на разных сайтах сообщества SE было бы новым.
- Прогнозирование оттока и удержание пользователя : Используя функции из истории каждого пользователя, можете ли вы предсказать следующий раз, когда ожидаете их увидеть? Можете ли вы предсказать вероятность того, что они вернутся на сайт, в зависимости от того, как долго они отсутствовали, и особенностей их прошлого поведения? Это можно использовать, например, чтобы попытаться заметить, когда пользователи подвергаются риску «оттока», и привлечь их (скажем, по электронной почте), чтобы сохранить их. Типичный подход - пересылать электронные письма после определенного периода бездействия. Но каждый пользователь очень разный, и существует множество информации о множестве пользователей, поэтому можно разработать более индивидуальный подход.
Я тоже думал о прогнозировании тегов, мне нравится эта идея. У меня есть ощущение, что это возможно, но вам может потребоваться преодолеть многие проблемы, прежде чем вы прибудете в свой окончательный набор данных. Поэтому я предполагаю, что для прогнозирования тегов может потребоваться много времени. В дополнение к неправильным тегам может играть роль ограничение максимум 5 тегов. Кроме того, некоторые теги являются подкатегориями других (например, «множественные сравнения» можно рассматривать как подкатегорию «значимого тестирования»).
Я не проверял, включено ли время до голосования в загружаемую базу данных, но более простым и все же интересным проектом могло бы быть прогнозирование «окончательного» числа голосов (возможно, через 5 месяцев) по вопросу в зависимости от первоначальных голосов, и время принятия ответа.
источник
Это хороший вопрос. Я тоже думал, что общедоступные наборы данных StackExchange станут хорошими объектами для анализа. Это достаточно необычно, что они также могут быть хорошими испытательными стендами для новых статистических методов. Во всяком случае, наличие такого большого количества хорошо структурированных данных необычно.
Кардинал предложил несколько вещей, которые на самом деле были бы полезны для StackExchange. Я не буду ограничиваться этим.
Вот один очевидный кандидат для анализа, хотя он не имеет очевидного использования, которое приходит на ум. Это заметный эффект, что пользователи с высоким уровнем репутации имеют больше шансов получить положительные голоса, при прочих равных условиях. Однако этот эффект, вероятно, нетривиален для модели. Поскольку мы не можем очень легко сравнить полезность по пользователям, очевидным подходом было бы предположить, что ответы пользователей всегда были одинаково полезны (в общем-то это неправда, но с чего-то начинать нужно), а затем добавить инфляционный термин для учета его растущей репутации. , Затем можно было бы (я полагаю) добавить в некоторые термины, которые объясняли бы его ответы, улучшающиеся с увеличением опыта. Может быть, это могло быть обработано каким-то временным рядом. Я не уверен, как интервал данных повлияет на это. Это может быть интересное упражнение.
Я добавлю больше примеров, если / когда я думаю о них.
Кто-нибудь знает о статистических исследованиях, основанных на данных SE? Также Исаак упомянул, что в данных есть ошибки. Кто-нибудь знает что-нибудь еще об этом?
источник