Имя: имя, отчество, фамилия.
Мне интересно, сколько информации вы можете извлечь из имени, используя общедоступные наборы данных. Я знаю, что вы можете получить следующее с любой низкой вероятностью (в зависимости от входных данных), используя данные переписи США: 1) Пол. 2) Гонка.
Например, Facebook использовал именно это, чтобы с достаточной степенью точности определить расовое распределение пользователей своего сайта (https://www.facebook.com/note.php?note_id=205925658858).
Что еще можно добыть? Я не ищу ничего конкретного, это очень открытый вопрос, чтобы успокоить мое любопытство.
Мои примеры относятся только к США, поэтому мы предполагаем, что имя - это имя человека, находящегося в США; но, если кто-то знает об общедоступных наборах данных для других стран, я более чем открыт для них.
Я не совсем уверен, если это правильное место для этого, если нет, я был бы признателен, если бы кто-то мог указать мне на более подходящее место.
Я надеюсь, что это интересный вопрос, и это подходящее место!
Ответы:
Это не серьезный ответ, но я только что вспомнил кое-что из книги, которую я прочитал год назад. Во Freakonomics есть глава, посвященная тому, что вы можете сказать о человеке по имени. Глава основана на исследовательской работе автора . Причины и следствия характерных черных имен.
Я думаю, что я нашел отрывок или краткое изложение этого в этой статье
источник
Из названия можно предсказать регион, возраст, статус иммигранта первого поколения. Из фамилии можно было предсказать географическое положение оригинального отчества. Для полного имени вы можете предсказать социальный и экономический статус (Терстон Хауэлл III).
источник
Просто чтобы добавить сюда другие предложения, один из крупнейших источников семейных данных - это множество генеалогических сайтов. Я думаю, что большинство западных людей, вероятно, перечислены каким-то членом семьи, отдаленным или иным образом в нескольких из них, и любое такое включение сопровождается обычно всеобъемлющим родословным, дополненным местами, деталями рождения и т. Д. Очень информативно.
Если вы сопоставляете эти данные с графами друзей в Facebook, так как люди, как правило, добавляют братьев и сестер / двоюродных братьев и сестер (а иногда и родителей / детей), а затем используют данные о местоположении с избирательными ролями и каталогами, вы обычно можете точно определить людей даже с общими именами, и получить удивительно большое количество данных о них.
источник
В последней главе Freakonomics (2005, Стивен Д. Левитт и Стивен Дж. Дубнер) обсуждается увлекательное обсуждение имен, особенно в связи с социально-экономическим статусом и расой.
У них есть список имен, которые могут или не могут хорошо коррелировать с анализом фамилий FB. Они также описывают, как выбор имени меняется диахронно (во времени).
Кто знает - имя для выбора родителей может быть более точным, чем то, что люди сообщают при переписи.
источник
Вы получили много хороших предложений выше, поэтому я просто упомяну интересный анекдот. Летний студент (ныне выдающийся специалист по информатике) в корпоративной исследовательской лаборатории (которая останется безымянной) просмотрел данные из онлайн-телефонного справочника компании и построил прогностическую модель для оценки заработной платы, используя n-граммы символов из имен. Сильнейшим предиктором было то, что ez_ указывал на более низкую оценку заработной платы, и я полагаю, что ему не следует об этом говорить.
источник
Вы, вероятно, могли бы узнать:
Что, кстати, означает, что вы никогда не должны использовать что-либо из списка выше для ваших паролей, секретных вопросов и т. Д.
источник
Дарден и Робинсон (1976) попытались найти лингвистическую структуру, которая направляет ассоциации людей о мужских именах. Они попросили две группы испытуемых (студенты-социологи и морские офицеры) оценить ряд общих американских имен по семантическим различиям, таким как мягкая жесткость, обще-благородная и городско-сельская местность. Они также запросили суждения о сходстве между различными парами имен, и в качестве подтверждения они сопоставили средние значения из семантических различий с измерениями, которые они нашли, как в трех, так и в четырех решениях D, используя процедуру TORSCA MDS.
Авторы обнаружили, что их трехмерное решение примерно соответствует классическому трио Осгуда: активация, оценка и эффективность. В четырех измерениях пространство вписывается в данные немного лучше, и здесь они интерпретируют структуру как зависящую от «характера», «зрелости», «общительности» и «мужественности», хотя эти шкалы, кажется, не так хорошо определены, как Авторы предложили. Одним из удивительных открытий, полученных в ходе исследования, было то, что, по крайней мере, для этих двух небольших выборок (n = 83 и 21) не было обнаружено ни одного измерения, которое соответствовало бы различию между данным именем и прозвищем.
Darden, DK, and Robinson, IE (1976). Многомерное масштабирование мужских имен: социолингвистический подход. Социометрия, 39 , 4, 422-431.
источник
Количество информации, которую можно найти, сильно варьируется, от расы и пола, до всевозможных личных данных. Лучше всего получать информацию на сайтах социальных сетей, таких как Facebook, поскольку они обычно предоставляют больше информации, чем базы данных Cencus.
источник
Существует довольно широкий спектр информации, которую вы можете получить в зависимости от используемых вами источников. Данные переписи очевидны. Вы также можете получить информацию от Facebook, MySpace и других социальных сетей. Вы также можете искать в публичных архивах новостей упоминания их имени. Может быть, даже те сайты недвижимости, которые есть в некоторых штатах.
Если вы хотите пример того, что можно сделать в реальном мире, взгляните на pipl.com
источник
Вы можете искать степени, водительские права, полицейский протокол (это правильный перевод?). С Facebook вы можете найти информацию о хобби, спорте, любимой музыке. Вы также можете посмотреть на долю других пользователей в социальных сетях с данным именем. (Мне было бы интересно это результаты)
источник
Не забывайте о скрэббл- результатах, например, о функциях скрэббла Wolfram Alpha
источник
Если вы знаете что-то о местонахождении человека, одним из источников информации являются базы данных регистрации избирателей. Многие из баз данных регистрации избирателей доступны (за плату; есть компании, которые скупают их и предоставляют доступ к ним через Интернет за плату). База данных регистрации избирателей может содержать адрес и / или дату рождения человека. Эта информация может позволить вам искать человека в других базах данных.
Тем не менее, существуют ограничения на то, насколько это помогает. Это может быть полезно, если вы знаете город или округ, где живет человек, и если его имя довольно необычное. Но если это обычное имя или вы не знаете, где они живут, это, вероятно, вам не поможет.
источник
Одним из крупнейших источников общедоступных данных, в том числе многих других полезных атрибутов, является окружная канцелярия по учету прав собственности. проблема связана с объединением всех данных ... некоторые штаты предоставляют центральную базу данных, а другие нет.
источник
Наличие средних инициалов уже довольно интересно, и это может сказать нам кое-что об этнической принадлежности. http://blog.scraperwiki.com/2012/06/15/middle-names-in-the-united-states-over-time/
источник