Лучший термин для выдуманных данных?

23

Я пишу пример и составил некоторые данные. Я хочу, чтобы читателю было ясно, что это не реальные данные, но я также не хочу создавать впечатление злого умысла, поскольку он служит только примером.

В этих конкретных данных нет (псевдослучайной) компоненты, поэтому мне кажется, что «имитация» не подходит. Если я называю это вымышленным или сфабрикованным, создает ли это впечатление мошеннических данных? Является ли «выдумка» словом, подходящим для научного контекста?

Какова терминология в статистической литературе для несимметричных данных?

Франс Роденбург
источник
9
Просто добавьте комментарий, который распространяется на несколько ответов: «синтетический» - это хорошее слово для составленных данных, которые пытаются выглядеть максимально реалистично, в то время как «макет» предлагает данные, которые были созданы для демонстрации чего-то конкретного. Например, данные «макета» могут содержать абсурдные выбросы, просто чтобы показать, насколько важно правильно бороться с выбросами.
Cort Ammon - Восстановить Монику
Я лично предпочитаю термин «имитированный» и встречал его больше всего в статистической литературе (то есть «мы проводили симуляции для сравнения нашей модели с X, Y, Z ....»
Самир Рахид Заим

Ответы:

45

Я бы назвал это «синтетическими» или «искусственными» данными, хотя я бы также назвал их «симулированными» (симуляция очень проста).

Луи Сиалделла
источник
30
Каждый слышит «игрушечные данные», «игрушечный пример» и «фиктивные данные». Также я согласен с тем, что «смоделированные» вполне могут подойти даже в отсутствие случайных чисел
rolando2
7
«Иллюстративные данные» или «примерные данные» также могут работать
Генри
8
+1 « синтетические данные » и « игрушечный пример» - это термины, которые я мог бы использовать, если бы возник такой случай, как это «построенный пример». Иногда я говорю «иллюстративный пример» или что-то подобное, особенно когда пример был явно сконструирован так, чтобы иметь определенные особенности (например, когда он задуман как контрпример к некоторому ошибочному представлению).
Glen_b
1
Я склонен использовать игрушечные данные (без искусственных или смоделированных ) для реальных (измеренных) наборов данных, которые я «злоупотребляю», чтобы что-то продемонстрировать.
cbeleites поддерживает Монику
1
От вашего приложения зависит, что будет работать лучше всего. Например, я также делаю проект с «поддельными» данными, но другая часть проекта включает в себя использование моделирования компьютерной модели. Так что для меня читатель может запутаться, называя фальшивые данные «симулированными», что подразумевает ложные данные, полученные в результате симуляции. Поэтому я полагаюсь на «искусственное», и иногда я описываю данные как «произведенные». Я лично избегал бы «синтетического», поскольку для меня этот термин подразумевал бы, что данные представляют собой некое сочетание других источников данных («синтез», например, данных А и данных В).
Ceph
12

Если вы хотите назвать свои данные фиктивными, вы окажетесь в хорошей компании, так как именно этот термин Фрэнсис Анскомб использовал для описания своего теперь знаменитого квартета .

От Anscombe, FJ (1973). « Графики в статистическом анализе », Am. Стат. 27 (1):

Некоторые из этих точек иллюстрируются четырьмя фиктивными наборами данных, каждый из которых состоит из одиннадцати (x, y) пар, показанных в таблице.

Но я думаю, что ваша осторожность правильна, так как мой OED (v4), похоже, указывает на то, что такое использование фиктивных устарело

фиктивный , а.

(fɪktɪʃəs)

[Ф. L. fictīci-us (f. Fingignre to fashion, симулировать) + -ous: см. -Itious.]

1.1 † a.1.a Искусственное, а не естественное (обс.). b.1.b Подделка, «подражание», обман; не является подлинной.

AkselA
источник
С точки зрения читабельности первое предложение и комментарии являются гораздо лучшей альтернативой. Не нужно использовать необычные, сложные слова.
Тим
1
@Tim: Я хочу согласиться, но я не совсем уверен, с чем бы я согласился. Вы говорите, что фиктивное было бы плохим выбором, несмотря на то, что раньше оно использовалось в аналогичном контексте? Потому что это то, что я говорю.
АксельА
7

В ИТ мы часто называем это данными макета , которые можно представить через макет (приложение).

Данные макета также могут быть представлены через полнофункциональное приложение, например, для контролируемого тестирования функциональности приложения.

ErikE
источник
5
Хороший вопрос, но я считаю, что данные макета и смоделированные данные не совсем совпадают. При создании макетных данных для модульных тестов вам нужно только сохранить некоторые базовые свойства реальных данных, а при использовании симулированных данных для статистического анализа вы обычно используете более сложные примеры данных.
Тим
2
Я все еще верю, что ErikE верен, хотя, когда вы пишете аналитический код, вам либо нужны реальные вещи или фиктивные данные. Поддельные данные могут быть настолько большими, насколько вы хотите, чтобы они были imo.
Матийс Сегерс
1
Наверное, практика варьируется, как и использование терминологии. Для многих наших тестов и анализов мы используем оперативные данные, которые были «обезврежены» по соображениям безопасности и анонимности. Для других мы создаем голые данные, как описывает Тим. У меня нет твердого мнения, но мы используем термин макет довольно свободно.
ErikE
3

Я видел многократные предложения для термина "синтетические данные". Этот термин, однако, имеет широкое применение и очень отличается от того, что вы хотите выразить: https://en.wikipedia.org/wiki/Synthetic_data

Я не уверен, что существует общепринятый научный термин, но термин «пример данных», кажется, трудно понять неправильно?

srass
источник
1
Эта статья кажется немного запутанной - отношение к анонимизации довольно незначительно.
Мэтт Краузе
+1, но я согласен с предыдущим комментарием: кроме вторых абзацев (в которых говорится, что синтезированные данные являются типом анонимных данных), остальная часть этой статьи в Википедии, похоже, описывает то, что хочет спрашивающий. Т.е. реалистично выглядящие вымышленные данные.
Даррен Кук
3

Я встречал термин «поддельные данные» изрядное количество. Я предполагаю, что у этого могли быть некоторые отрицательные коннотации, но я слышал это достаточно часто, чтобы это вообще не регистрировалось отрицательно для меня.

FWIW, Эндрю Гельман тоже использует это:

https://statmodeling.stat.columbia.edu/2009/09/04/fake-data_simul/

https://statmodeling.stat.columbia.edu/2019/03/23/yes-i-really-really-really-like-fake-data-simulation-and-i-cant-stop-talking-about-it/

https://books.google.dk/books?id=lV3DIdV0F9AC&pg=PA155&lpg=PA155&dq=fake+data+simulation&source=bl&ots=6ljKB6StQ4&sig=ACfU3U17GLP_84q_HfIQB4u5O6wV0yA2Aw&hl=en&sa=X&ved=2ahUKEwiF2_eB0uvjAhWswcQBHSn5Cn04ChDoATAAegQICRAB#v=onepage&q=fake%20data%20simulation&f=false

Быстрый поиск в Google по «поддельным данным» выявляет множество результатов, которые, похоже, используют термин аналогично:

https://scientistseessquirrel.wordpress.com/2016/03/10/good-uses-for-fake-data-part-1/

http://modernstatisticalworkflow.blogspot.com/2017/04/an-easy-way-to-simulate-fake-data-from.html

https://clayford.github.io/dwir/dwr_12_generating_data.html

И даже есть fakeRпакет, который предполагает, что это относительно распространено: https://cran.r-project.org/web/packages/fakeR/fakeR.pdf

mkt - восстановить монику
источник
2

Я использую другое слово в зависимости от способа использования данных. Если я обнаружил, что готовый набор данных лежал вокруг, и подтвердил мой алгоритм на него, то слово «синтетический» вполне подойдет.

Однако часто, когда я использую этот тип данных, я придумывал данные с конкретной целью показать возможности моего алгоритма. Другими словами, я изобрел данные для конкретной цели получения «хороших результатов». В таких обстоятельствах мне нравится термин «надуманный» вместе с объяснением моих ожиданий в отношении данных. Это потому, что я не хочу, чтобы кто-то допустил ошибку, думая, что я указал мой алгоритм на какой-то произвольный синтетический набор данных, который я нашел лежащим вокруг, и это действительно сработало. Если у меня есть специально отобранные данные (до момента их составления) специально для того, чтобы мой алгоритм работал хорошо, я так и говорю. Это потому, что такие результаты свидетельствуют о том, что мой алгоритм можетработать хорошо, но предоставить только очень слабые доказательства того, что алгоритм может работать хорошо в целом . Слово «надуманный» действительно хорошо подводит итог того факта, что я выбрал данные с учетом «хороших результатов», априори.

"Это создает впечатление мошеннических данных?"

Нет, но важно иметь четкое представление об источнике любого набора данных и ваших априорных ожиданиях в качестве экспериментатора при составлении отчета о ваших результатах в любом наборе данных. Термин «мошенничество» явно включает в себя аспект того, чтобы что-то скрыть или открыто лгать. Лучший способ избежать мошенничества в науке - просто быть честным и откровенным в отношении характера ваших данных и ваших ожиданий. Другими словами, если ваши данные сфабрикованы, и вы не можете сказать что-либо так , как есть, и есть какое-то ожидание, что данные не сфабрикованы, или, что еще хуже, вы утверждаете, что данные собраны в некотором не сфабрикованном виде в пути, то , что есть«Мошенничество». Не делай этого. Если вы хотите использовать некоторый синоним для термина «сфабрикованный», который «звучит лучше», например, «синтетический», никто не будет обвинять вас, но в то же время я не думаю, что кто-то заметит разницу, кроме вас.

Примечание стороны:

Менее очевидны обстоятельства, когда кто-то утверждает, что имел априорные ожидания, которые на самом деле являются постфактумными объяснениями . Это также мошеннический анализ данных.

Существует опасность этого, когда кто-то выбирает данные специально с целью «показать» возможности алгоритма, что часто бывает в случае синтетических данных.

Чтобы понять, почему это так, рассмотрим, что «нормальный» научный метод работает примерно так: 1) выбрана популяция 2) выдвинута гипотеза 3) проверен на (или какой-то образец, выбранный из ) Наука не должна работать в рамках этого узкого определения, но это то, что называется «подтверждающим» анализом, и обычно считается самой сильной формой доказательств, которую можно предоставить. Поскольку порядок событий соотносится с силой доказательств, важно специально их документировать.DHHDD

Следует отметить, что в случае «умудрялся» данных, процесс часто работает больше как так: 1) Гипотеза задумана, 2) популяция выбирается, 3) проверяется на . Например, если вы тестируете алгоритм, то до изобретения синтетического набора данных может возникнуть гипотеза о том, что ваш модный новый алгоритм «хорошо работает». Если это так, вы должны упомянуть об этом. По крайней мере, вы не должны заявлять, что события произошли «подтверждающим» образом, потому что это заставит читателей прийти к заключению, что ваши доказательства сильнее, чем они есть на самом деле.HDHD

В этом нет проблем, если вы честны и откровенны в том, что сделали. Если вы прошли через усилия по созданию набора данных, который дает «хорошие результаты», так и скажите. Пока вы даете читателю знать, какие шаги вы предприняли при анализе данных, у него есть информация, необходимая для эффективного взвешивания доказательств за или против ваших гипотез. Если вы не честны или не прямолинейны , то это может создать впечатление , что ваши доказательства сильнее , чем на самом деле. Когда вы ЗНАЕТЕ, что вы менее чем честны и откровенны ради того, чтобы ваши доказательства казались сильнее, чем они есть на самом деле, тогда это действительно мошенничество,

В любом случае именно поэтому я предпочитаю термин «надуманный» для таких наборов данных, а также краткое объяснение того, что они действительно выбраны с учетом гипотезы. «Придуманный» передает ощущение, что я не только создал синтетический набор данных, но я сделал это с особыми намерениями, которые отражают тот факт, что моя гипотеза уже была создана до создания моего набора данных.

Для иллюстрации на примере: Вы создаете алгоритм анализа произвольных временных рядов. Вы выдвигаете гипотезу, что этот алгоритм даст «хорошие результаты», когда он указывается во временных рядах. Теперь рассмотрим следующие две возможности: 1) Вы создаете некоторые синтетические данные, которые выглядят так, как вы ожидаете, что ваш алгоритм будет работать хорошо. Вы анализируете эти данные, и алгоритм работает хорошо. 2) Вы получаете некоторые синтетические наборы данных, потому что они доступны, почему бы и нет. Вы анализируете эти данные, и алгоритм работает хорошо. Какое из этих двух обстоятельств является лучшим доказательством того, что ваш алгоритм хорошо работает на произвольных временных рядах? Очевидно, что это вариант 2. Однако в варианте 1 или 2 может быть легко сообщить, что «мы применили алгоритмAк синтетическому набора данных . Результаты показаны на рис. . "В отсутствие какого-либо контекста читатель может разумно предположить, что эти результаты являются подтверждающими (вариант 2), когда, в случае варианта 1, они не являются. 1, сложилось впечатление, что доказательства сильнее, чем на самом деле.Dx.y

ТЛ; др

Используйте любой термин, который вам нравится, «синтетический», «надуманный», «сфабрикованный», «вымышленный». Однако используемый вами термин недостаточен для того, чтобы ваши результаты не вводили в заблуждение . Убедитесь в том, что в вашем отчете ясно, как появились данные, включая ваши ожидания относительно данных и причины, по которым вы выбрали данные, которые выбрали.

Скотт
источник
Несмотря на то, что ответы здесь совпадают, и почти все они дают хорошие замечания, этот, я думаю, лучше всего передает ключевой момент, что ни один термин не будет сообщать всем читателям намерение составления данных. Причины могут варьироваться от не только уместного, но и необходимого для достижения цели через лень (плохие вводные тексты) до обмана и мошенничества. Объяснение, почему вы делаете это довольно долго, может быть хорошей идеей.
Ник Кокс
... причины ...
Ник Кокс
1

Во-первых, нет причин не называть это «набором данных». Не существует универсально согласованного (ых) термина (ов) для «поддельных» и «смоделированных» против ... данных. Если цель состоит в том, чтобы быть полностью ясным, лучше всего на самом деле посвятить предложение, а не слово, чтобы определить, что это за набор данных. После этого вы можете ослабить обозначение и просто ссылаться на свои данные как на данные.

«Синтетический», «искусственный» не отличает меня от других выборочных «смоделированных» наборов данных MCMC. Использование генератора квазислучайных чисел с фиксированным начальным числом (как того требует правильное обучение) также создает синтетический или искусственный набор данных.

Если точка курации набора данных для конкретной иллюстрации, а не генерация экземпляра или реализации из вероятностной модели, я думаю, лучше называть такой набор данных « примером набора данных ». Подобные данные сродни квартету Анскомба: абсолютно абстрактные и не правдоподобные, но предназначенные для иллюстрации сути.

Adamo
источник
1

В биологии анализ иногда демонстрируется с использованием набора данных о мифических животных. Независимо от того, явно ли заявлено, что данные моделируются, зависит от автора / рецензента.

Руководство эколога по модели животных, 2009

Эти руководства описывают серию количественных генетических анализов популяции грифонов (отражающих компромисс между предвзятостью авторов по птицам и млекопитающим). Поскольку грифон является мифическим зверем, предоставленные данные обязательно были смоделированы.

Фиксированная дисперсия эффекта и оценка повторяемости и наследственности: проблемы и решения, 2017

Чтобы проиллюстрировать это, давайте вернемся к набору данных единорога Wilson (2008). Известно, что у единорогов длина рога варьируется в зависимости от индивидуальной массы тела (наклон: β = 0,403 для полной модели, включая возраст, пол и их взаимодействие).

Д.А. Уэллс
источник
1
Интересный подход! Я думаю, что это может быть полезно для обучения студентов-биологов. Представляя публике, хотя, я не уверен, произведет ли это правильное впечатление
Франс Роденбург
0

Интуитивно я хотел бы перейти к термину «фиктивные данные» в том же смысле, что и «Lorem ipsum ...» называется «фиктивный текст». Слово «Пустышка» является довольно общим и легким для понимания людьми из разных слоев общества, и поэтому менее вероятно, что оно будет неверно истолковано читателями с меньшей статистической подготовкой.

Mathijs
источник
2
Если это в контексте регрессии, я бы избегал перегрузки «фиктивных», чтобы у вас не было фиктивных переменных, кодирующих фиктивные данные.
Мэтт Краузе
Я согласен, я бы лично избегал этого, поскольку у «Пустышки» уже есть определенный оттенок в регрессии. Учитывая, что имеется множество доступных терминов, вероятно, лучше избегать тех терминов, которые могут означать разные вещи для разных людей.
Самир Рашид Заим
0

Данные для латыни даны , что используется в наше время как сокращение для данного набора зарегистрированных фактов . Таким образом, в некотором смысле упоминание о сфабрикованных записях как неких данных фактах будет открытым противоречием.

Однако из-за растущего использования данных для ссылки просто на записи - независимо от первоначального предположения о том, что записи являются фактами, - мы с радостью понимаем друг друга, когда говорим о записях, которые могут быть или не быть правдивыми - следовательно, настоящие / поддельные данные.

Ниже я поделюсь своим опытом поиска поддельных записей. Используемая метка зависит от того, предполагаем ли мы, что мы говорим о данных как о сфабрикованных записях, которые должны выглядеть достаточно реалистичными для дальнейшего анализа, или данные как вычислительная нагрузка.

  • В кругах аналитики / науки о данных / стратегического консультирования люди чаще всего обращаются к сфабрикованному набору записей, сгенерированных с реалистичными допущениями, как синтетические данные - и иногда симулируемые данные . Изготовленные записи, созданные с использованием грубых допущений, называются набором игрушечных данных .
  • Среди инженеров-программистов фальшивые данные , фиктивные данные , макетированные данные и макетные данные являются частыми метками, которые в основном намекают на записи, которые необязательно должны иметь реалистичные свойства, но имеют только общие свойства с исходными данными (данные о возрасте всегда числовые адреса электронной почты всегда представляют собой строки, содержащие «@»).
  • Академические исследователи будут относиться к реалистичному набору сфабрикованных записей как псевдоданных или смоделированных данных . В некоторых кругах, если сфабрикованный набор наблюдений является результатом моделирования Монте-Карло, его можно в разговорной речи назвать Монте-Карло . Полуреалистичные записи обычно используются в иллюстративных целях или для проверки альтернативных гипотез и называются набором игрушечных данных.
famargar
источник
2
«Монте-Карло» - это название метода, поэтому «разговорное» имя было бы очень обманчивым.
Тим
@ Действительно, это может показаться вводящим в заблуждение. Тем не менее, язык - это просто инструмент, основанный на консенсусе в сообществе как способ ссылаться на что-то. Настолько, что мы ссылаемся на этом сайте на записи и измерения, как указано (английский для латинских данных ). Если бы я принял вашу точку зрения, я бы посчитал адресацию симулированных измерений ложной, учитывая весьма сомнительные.
famargar
Я надеюсь, что теперь вы увидите, что упоминание «симуляции Монте-Карло» как просто «Монте-Карло» является современной версией ссылки на «данные наблюдения» как «данные». Я отредактировал свой ответ, чтобы включить этот и другие соображения о значении и фактическом использовании слова «данные».
famargar
1
«Академические исследователи называют реальный набор сфабрикованных записей чаще всего псевдоданными»: я не помню, чтобы когда-либо видел этот термин за 40 с лишним лет академических исследований. «Академикам обычно не нужны нереальные записи»: извините, но это звучит совершенно неправильно. Академики во многих, многих областях используют симуляции нескольких разных видов. Даже нереалистичное моделирование может быть полезным, например, изменчивость нормальных образцов является важным контекстом для оценки ненормальности.
Ник Кокс
@NickCox Pseudodata часто используется в физике, и я видел это в биологии и статистике. Было бы интересно узнать, какое у вас поле и как оно относится к симуляциям. Что касается нереалистичных данных, я сделал различие между нереалистичными и полуреалистичными. Я пропустил ваш вариант использования?
famargar