Я пишу пример и составил некоторые данные. Я хочу, чтобы читателю было ясно, что это не реальные данные, но я также не хочу создавать впечатление злого умысла, поскольку он служит только примером.
В этих конкретных данных нет (псевдослучайной) компоненты, поэтому мне кажется, что «имитация» не подходит. Если я называю это вымышленным или сфабрикованным, создает ли это впечатление мошеннических данных? Является ли «выдумка» словом, подходящим для научного контекста?
Какова терминология в статистической литературе для несимметричных данных?
terminology
synthetic-data
Франс Роденбург
источник
источник
Ответы:
Я бы назвал это «синтетическими» или «искусственными» данными, хотя я бы также назвал их «симулированными» (симуляция очень проста).
источник
Если вы хотите назвать свои данные фиктивными, вы окажетесь в хорошей компании, так как именно этот термин Фрэнсис Анскомб использовал для описания своего теперь знаменитого квартета .
От Anscombe, FJ (1973). « Графики в статистическом анализе », Am. Стат. 27 (1):
Но я думаю, что ваша осторожность правильна, так как мой OED (v4), похоже, указывает на то, что такое использование фиктивных устарело
источник
В ИТ мы часто называем это данными макета , которые можно представить через макет (приложение).
Данные макета также могут быть представлены через полнофункциональное приложение, например, для контролируемого тестирования функциональности приложения.
источник
Я видел многократные предложения для термина "синтетические данные". Этот термин, однако, имеет широкое применение и очень отличается от того, что вы хотите выразить: https://en.wikipedia.org/wiki/Synthetic_data
Я не уверен, что существует общепринятый научный термин, но термин «пример данных», кажется, трудно понять неправильно?
источник
Я встречал термин «поддельные данные» изрядное количество. Я предполагаю, что у этого могли быть некоторые отрицательные коннотации, но я слышал это достаточно часто, чтобы это вообще не регистрировалось отрицательно для меня.
FWIW, Эндрю Гельман тоже использует это:
https://statmodeling.stat.columbia.edu/2009/09/04/fake-data_simul/
https://statmodeling.stat.columbia.edu/2019/03/23/yes-i-really-really-really-like-fake-data-simulation-and-i-cant-stop-talking-about-it/
https://books.google.dk/books?id=lV3DIdV0F9AC&pg=PA155&lpg=PA155&dq=fake+data+simulation&source=bl&ots=6ljKB6StQ4&sig=ACfU3U17GLP_84q_HfIQB4u5O6wV0yA2Aw&hl=en&sa=X&ved=2ahUKEwiF2_eB0uvjAhWswcQBHSn5Cn04ChDoATAAegQICRAB#v=onepage&q=fake%20data%20simulation&f=false
Быстрый поиск в Google по «поддельным данным» выявляет множество результатов, которые, похоже, используют термин аналогично:
https://scientistseessquirrel.wordpress.com/2016/03/10/good-uses-for-fake-data-part-1/
http://modernstatisticalworkflow.blogspot.com/2017/04/an-easy-way-to-simulate-fake-data-from.html
https://clayford.github.io/dwir/dwr_12_generating_data.html
И даже есть
fakeR
пакет, который предполагает, что это относительно распространено: https://cran.r-project.org/web/packages/fakeR/fakeR.pdfисточник
Я использую другое слово в зависимости от способа использования данных. Если я обнаружил, что готовый набор данных лежал вокруг, и подтвердил мой алгоритм на него, то слово «синтетический» вполне подойдет.
Однако часто, когда я использую этот тип данных, я придумывал данные с конкретной целью показать возможности моего алгоритма. Другими словами, я изобрел данные для конкретной цели получения «хороших результатов». В таких обстоятельствах мне нравится термин «надуманный» вместе с объяснением моих ожиданий в отношении данных. Это потому, что я не хочу, чтобы кто-то допустил ошибку, думая, что я указал мой алгоритм на какой-то произвольный синтетический набор данных, который я нашел лежащим вокруг, и это действительно сработало. Если у меня есть специально отобранные данные (до момента их составления) специально для того, чтобы мой алгоритм работал хорошо, я так и говорю. Это потому, что такие результаты свидетельствуют о том, что мой алгоритм можетработать хорошо, но предоставить только очень слабые доказательства того, что алгоритм может работать хорошо в целом . Слово «надуманный» действительно хорошо подводит итог того факта, что я выбрал данные с учетом «хороших результатов», априори.
Нет, но важно иметь четкое представление об источнике любого набора данных и ваших априорных ожиданиях в качестве экспериментатора при составлении отчета о ваших результатах в любом наборе данных. Термин «мошенничество» явно включает в себя аспект того, чтобы что-то скрыть или открыто лгать. Лучший способ избежать мошенничества в науке - просто быть честным и откровенным в отношении характера ваших данных и ваших ожиданий. Другими словами, если ваши данные сфабрикованы, и вы не можете сказать что-либо так , как есть, и есть какое-то ожидание, что данные не сфабрикованы, или, что еще хуже, вы утверждаете, что данные собраны в некотором не сфабрикованном виде в пути, то , что есть«Мошенничество». Не делай этого. Если вы хотите использовать некоторый синоним для термина «сфабрикованный», который «звучит лучше», например, «синтетический», никто не будет обвинять вас, но в то же время я не думаю, что кто-то заметит разницу, кроме вас.
Примечание стороны:
Менее очевидны обстоятельства, когда кто-то утверждает, что имел априорные ожидания, которые на самом деле являются постфактумными объяснениями . Это также мошеннический анализ данных.
Существует опасность этого, когда кто-то выбирает данные специально с целью «показать» возможности алгоритма, что часто бывает в случае синтетических данных.
Чтобы понять, почему это так, рассмотрим, что «нормальный» научный метод работает примерно так: 1) выбрана популяция 2) выдвинута гипотеза 3) проверен на (или какой-то образец, выбранный из ) Наука не должна работать в рамках этого узкого определения, но это то, что называется «подтверждающим» анализом, и обычно считается самой сильной формой доказательств, которую можно предоставить. Поскольку порядок событий соотносится с силой доказательств, важно специально их документировать.D H H D D
Следует отметить, что в случае «умудрялся» данных, процесс часто работает больше как так: 1) Гипотеза задумана, 2) популяция выбирается, 3) проверяется на . Например, если вы тестируете алгоритм, то до изобретения синтетического набора данных может возникнуть гипотеза о том, что ваш модный новый алгоритм «хорошо работает». Если это так, вы должны упомянуть об этом. По крайней мере, вы не должны заявлять, что события произошли «подтверждающим» образом, потому что это заставит читателей прийти к заключению, что ваши доказательства сильнее, чем они есть на самом деле.H D H D
В этом нет проблем, если вы честны и откровенны в том, что сделали. Если вы прошли через усилия по созданию набора данных, который дает «хорошие результаты», так и скажите. Пока вы даете читателю знать, какие шаги вы предприняли при анализе данных, у него есть информация, необходимая для эффективного взвешивания доказательств за или против ваших гипотез. Если вы не честны или не прямолинейны , то это может создать впечатление , что ваши доказательства сильнее , чем на самом деле. Когда вы ЗНАЕТЕ, что вы менее чем честны и откровенны ради того, чтобы ваши доказательства казались сильнее, чем они есть на самом деле, тогда это действительно мошенничество,
В любом случае именно поэтому я предпочитаю термин «надуманный» для таких наборов данных, а также краткое объяснение того, что они действительно выбраны с учетом гипотезы. «Придуманный» передает ощущение, что я не только создал синтетический набор данных, но я сделал это с особыми намерениями, которые отражают тот факт, что моя гипотеза уже была создана до создания моего набора данных.
Для иллюстрации на примере: Вы создаете алгоритм анализа произвольных временных рядов. Вы выдвигаете гипотезу, что этот алгоритм даст «хорошие результаты», когда он указывается во временных рядах. Теперь рассмотрим следующие две возможности: 1) Вы создаете некоторые синтетические данные, которые выглядят так, как вы ожидаете, что ваш алгоритм будет работать хорошо. Вы анализируете эти данные, и алгоритм работает хорошо. 2) Вы получаете некоторые синтетические наборы данных, потому что они доступны, почему бы и нет. Вы анализируете эти данные, и алгоритм работает хорошо. Какое из этих двух обстоятельств является лучшим доказательством того, что ваш алгоритм хорошо работает на произвольных временных рядах? Очевидно, что это вариант 2. Однако в варианте 1 или 2 может быть легко сообщить, что «мы применили алгоритмA к синтетическому набора данных . Результаты показаны на рис. . "В отсутствие какого-либо контекста читатель может разумно предположить, что эти результаты являются подтверждающими (вариант 2), когда, в случае варианта 1, они не являются. 1, сложилось впечатление, что доказательства сильнее, чем на самом деле.D x.y
ТЛ; др
Используйте любой термин, который вам нравится, «синтетический», «надуманный», «сфабрикованный», «вымышленный». Однако используемый вами термин недостаточен для того, чтобы ваши результаты не вводили в заблуждение . Убедитесь в том, что в вашем отчете ясно, как появились данные, включая ваши ожидания относительно данных и причины, по которым вы выбрали данные, которые выбрали.
источник
Во-первых, нет причин не называть это «набором данных». Не существует универсально согласованного (ых) термина (ов) для «поддельных» и «смоделированных» против ... данных. Если цель состоит в том, чтобы быть полностью ясным, лучше всего на самом деле посвятить предложение, а не слово, чтобы определить, что это за набор данных. После этого вы можете ослабить обозначение и просто ссылаться на свои данные как на данные.
«Синтетический», «искусственный» не отличает меня от других выборочных «смоделированных» наборов данных MCMC. Использование генератора квазислучайных чисел с фиксированным начальным числом (как того требует правильное обучение) также создает синтетический или искусственный набор данных.
Если точка курации набора данных для конкретной иллюстрации, а не генерация экземпляра или реализации из вероятностной модели, я думаю, лучше называть такой набор данных « примером набора данных ». Подобные данные сродни квартету Анскомба: абсолютно абстрактные и не правдоподобные, но предназначенные для иллюстрации сути.
источник
В биологии анализ иногда демонстрируется с использованием набора данных о мифических животных. Независимо от того, явно ли заявлено, что данные моделируются, зависит от автора / рецензента.
Руководство эколога по модели животных, 2009
Фиксированная дисперсия эффекта и оценка повторяемости и наследственности: проблемы и решения, 2017
источник
Интуитивно я хотел бы перейти к термину «фиктивные данные» в том же смысле, что и «Lorem ipsum ...» называется «фиктивный текст». Слово «Пустышка» является довольно общим и легким для понимания людьми из разных слоев общества, и поэтому менее вероятно, что оно будет неверно истолковано читателями с меньшей статистической подготовкой.
источник
Данные для латыни даны , что используется в наше время как сокращение для данного набора зарегистрированных фактов . Таким образом, в некотором смысле упоминание о сфабрикованных записях как неких данных фактах будет открытым противоречием.
Однако из-за растущего использования данных для ссылки просто на записи - независимо от первоначального предположения о том, что записи являются фактами, - мы с радостью понимаем друг друга, когда говорим о записях, которые могут быть или не быть правдивыми - следовательно, настоящие / поддельные данные.
Ниже я поделюсь своим опытом поиска поддельных записей. Используемая метка зависит от того, предполагаем ли мы, что мы говорим о данных как о сфабрикованных записях, которые должны выглядеть достаточно реалистичными для дальнейшего анализа, или данные как вычислительная нагрузка.
источник