Как много информации вы можете извлечь из имени?

11

Имя: имя, отчество, фамилия.

Мне интересно, сколько информации вы можете извлечь из имени, используя общедоступные наборы данных. Я знаю, что вы можете получить следующее с любой низкой вероятностью (в зависимости от входных данных), используя данные переписи США: 1) Пол. 2) Гонка.

Например, Facebook использовал именно это, чтобы с достаточной степенью точности определить расовое распределение пользователей своего сайта (https://www.facebook.com/note.php?note_id=205925658858).

Что еще можно добыть? Я не ищу ничего конкретного, это очень открытый вопрос, чтобы успокоить мое любопытство.

Мои примеры относятся только к США, поэтому мы предполагаем, что имя - это имя человека, находящегося в США; но, если кто-то знает об общедоступных наборах данных для других стран, я более чем открыт для них.

Я не совсем уверен, если это правильное место для этого, если нет, я был бы признателен, если бы кто-то мог указать мне на более подходящее место.

Я надеюсь, что это интересный вопрос, и это подходящее место!


источник
2
возможно, вы могли бы также получить информацию о географическом положении, если бы вы могли получить соответствующие данные? Вы также можете использовать информацию о популярности имен с течением времени (Google "Baby
Name
1
Я объединил перенесенный вопрос с дубликатом.

Ответы:

12

Это не серьезный ответ, но я только что вспомнил кое-что из книги, которую я прочитал год назад. Во Freakonomics есть глава, посвященная тому, что вы можете сказать о человеке по имени. Глава основана на исследовательской работе автора . Причины и следствия характерных черных имен.

Я думаю, что я нашел отрывок или краткое изложение этого в этой статье

Данные показывают, что в среднем человек с явно черным именем - будь то женщина по имени Имани или мужчина по имени ДеШон - имеет худший жизненный результат, чем женщина по имени Молли или мужчина по имени Джейк. Но это не вина его или ее имени. Если два чернокожих мальчика, Джейк Уильямс и ДеШон Уильямс, родятся в одном районе и будут жить в одинаковых семейных и экономических условиях, они, вероятно, будут иметь схожие жизненные результаты. Но те родители, которые называют своего сына Джейком, не склонны жить в одних и тех же кварталах или делиться экономическими обстоятельствами с родителями, которые называют своего сына ДеШоном. И именно поэтому, в среднем, мальчик по имени Джейк будет стремиться зарабатывать больше денег и получать больше образования, чем мальчик по имени ДеШон. DeShawn»


источник
4

Из названия можно предсказать регион, возраст, статус иммигранта первого поколения. Из фамилии можно было предсказать географическое положение оригинального отчества. Для полного имени вы можете предсказать социальный и экономический статус (Терстон Хауэлл III).

fgregg
источник
+1 только за первое упоминание на этом сайте персонажа острова Гиллигана.
rolando2
4

Просто чтобы добавить сюда другие предложения, один из крупнейших источников семейных данных - это множество генеалогических сайтов. Я думаю, что большинство западных людей, вероятно, перечислены каким-то членом семьи, отдаленным или иным образом в нескольких из них, и любое такое включение сопровождается обычно всеобъемлющим родословным, дополненным местами, деталями рождения и т. Д. Очень информативно.

Если вы сопоставляете эти данные с графами друзей в Facebook, так как люди, как правило, добавляют братьев и сестер / двоюродных братьев и сестер (а иногда и родителей / детей), а затем используют данные о местоположении с избирательными ролями и каталогами, вы обычно можете точно определить людей даже с общими именами, и получить удивительно большое количество данных о них.


источник
3

В последней главе Freakonomics (2005, Стивен Д. Левитт и Стивен Дж. Дубнер) обсуждается увлекательное обсуждение имен, особенно в связи с социально-экономическим статусом и расой.

У них есть список имен, которые могут или не могут хорошо коррелировать с анализом фамилий FB. Они также описывают, как выбор имени меняется диахронно (во времени).

Кто знает - имя для выбора родителей может быть более точным, чем то, что люди сообщают при переписи.

rajah9
источник
3

Вы получили много хороших предложений выше, поэтому я просто упомяну интересный анекдот. Летний студент (ныне выдающийся специалист по информатике) в корпоративной исследовательской лаборатории (которая останется безымянной) просмотрел данные из онлайн-телефонного справочника компании и построил прогностическую модель для оценки заработной платы, используя n-граммы символов из имен. Сильнейшим предиктором было то, что ez_ указывал на более низкую оценку заработной платы, и я полагаю, что ему не следует об этом говорить.

DavidDLewis
источник
2

Вы, вероятно, могли бы узнать:

  1. Профессия и, возможно, история работы, если кто-то участвует в каких-либо профессиональных дискуссиях (текущую работу обычно можно узнать по доменному имени в электронной почте или в подписи, поиск также выявит прошлые)
  2. Родственники, если кто-то поддерживает профиль в социальных сетях.
  3. Текущее местоположение, хотя бы до города.
  4. Этническое происхождение, если у кого-то другое имя (например, кто-то по имени «Любомир», вероятно, связан с одной из славянских европейских стран и т. Д.).
  5. Дата рождения из социальных сетей - люди, как правило, поздравляют человека с или около даты его рождения, и если вам повезет, вы также получите год, когда вам исполнится 25, 30, 35 и т. Д., Как один из поздравляющих людей, вероятно, упомянет это если не человек, о котором идет речь.
  6. Образование - от LinkedIn и др.
  7. Хобби, любимые спортивные команды и др.
  8. Если вы любитель домашних животных, то, возможно, у него есть все домашние животные в социальных сетях.

Что, кстати, означает, что вы никогда не должны использовать что-либо из списка выше для ваших паролей, секретных вопросов и т. Д.


источник
А как насчет людей, которые имеют то же имя, что и вы ... Есть несколько "Дин Хардинг", один из которых был даже профессиональным футболистом! «Дин Хардинг» в твиттере - это не я, есть сотни «Дин Хардинг» в Фейсбуке и т. Д. И т. Д.
Конечно, это зависит от случайности. Обычно вы можете узнать, кто это по профессии, местоположению и т. Д., Хотя я видел случаи, когда было 3 человека с одинаковым полным именем, в той же профессии и проживающих примерно в одном районе. Тогда, конечно, становится сложнее :)
2

Дарден и Робинсон (1976) попытались найти лингвистическую структуру, которая направляет ассоциации людей о мужских именах. Они попросили две группы испытуемых (студенты-социологи и морские офицеры) оценить ряд общих американских имен по семантическим различиям, таким как мягкая жесткость, обще-благородная и городско-сельская местность. Они также запросили суждения о сходстве между различными парами имен, и в качестве подтверждения они сопоставили средние значения из семантических различий с измерениями, которые они нашли, как в трех, так и в четырех решениях D, используя процедуру TORSCA MDS.

Авторы обнаружили, что их трехмерное решение примерно соответствует классическому трио Осгуда: активация, оценка и эффективность. В четырех измерениях пространство вписывается в данные немного лучше, и здесь они интерпретируют структуру как зависящую от «характера», «зрелости», «общительности» и «мужественности», хотя эти шкалы, кажется, не так хорошо определены, как Авторы предложили. Одним из удивительных открытий, полученных в ходе исследования, было то, что, по крайней мере, для этих двух небольших выборок (n = 83 и 21) не было обнаружено ни одного измерения, которое соответствовало бы различию между данным именем и прозвищем.

Darden, DK, and Robinson, IE (1976). Многомерное масштабирование мужских имен: социолингвистический подход. Социометрия, 39 , 4, 422-431.

rolando2
источник
1

Количество информации, которую можно найти, сильно варьируется, от расы и пола, до всевозможных личных данных. Лучше всего получать информацию на сайтах социальных сетей, таких как Facebook, поскольку они обычно предоставляют больше информации, чем базы данных Cencus.


источник
1

Существует довольно широкий спектр информации, которую вы можете получить в зависимости от используемых вами источников. Данные переписи очевидны. Вы также можете получить информацию от Facebook, MySpace и других социальных сетей. Вы также можете искать в публичных архивах новостей упоминания их имени. Может быть, даже те сайты недвижимости, которые есть в некоторых штатах.

Если вы хотите пример того, что можно сделать в реальном мире, взгляните на pipl.com


источник
Не могли бы вы сказать нам, где (в любой точке мира) мы можем найти данные переписи с именами ?
whuber
1

Вы можете искать степени, водительские права, полицейский протокол (это правильный перевод?). С Facebook вы можете найти информацию о хобби, спорте, любимой музыке. Вы также можете посмотреть на долю других пользователей в социальных сетях с данным именем. (Мне было бы интересно это результаты)

lcrmorin
источник
0

Если вы знаете что-то о местонахождении человека, одним из источников информации являются базы данных регистрации избирателей. Многие из баз данных регистрации избирателей доступны (за плату; есть компании, которые скупают их и предоставляют доступ к ним через Интернет за плату). База данных регистрации избирателей может содержать адрес и / или дату рождения человека. Эта информация может позволить вам искать человека в других базах данных.

Тем не менее, существуют ограничения на то, насколько это помогает. Это может быть полезно, если вы знаете город или округ, где живет человек, и если его имя довольно необычное. Но если это обычное имя или вы не знаете, где они живут, это, вероятно, вам не поможет.

DW
источник
0

Одним из крупнейших источников общедоступных данных, в том числе многих других полезных атрибутов, является окружная канцелярия по учету прав собственности. проблема связана с объединением всех данных ... некоторые штаты предоставляют центральную базу данных, а другие нет.

NetConstructor.com
источник