Какие существуют широкие методы обнаружения мошенничества, аномалий, фальсификаций и т. Д. В научных работах третьих сторон? (Я был мотивирован, чтобы спросить об этом из-за недавнего романа с Марком Хаузером .) Как правило, для фальсификаций выборов и бухгалтерского учета цитируется какой-то вариант закона Бенфорда . Я не уверен, как это можно применить, например, к делу Марка Хаузера, потому что закон Бенфорда требует, чтобы числа были примерно одинаковыми.
В качестве конкретного примера, предположим, что в статье приводятся значения p для большого числа статистических тестов. Можно ли преобразовать их в единообразие, а затем применить закон Бенфорда? Похоже, что при таком подходе возникнут всевозможные проблемы ( например, некоторые из нулевых гипотез могут быть на законных основаниях ложными, статистический код может давать p-значения, которые являются только приблизительно правильными, тесты могут давать только p-значения, которые являются однородными под нулевым асимптотически и т. д.)
источник
Ответы:
Отличный вопрос!
В научном контексте существуют различные виды проблемных сообщений и проблемного поведения:
Типичные примеры неподобающего поведения:
В общем, я бы предположил, что некомпетентность связана со всеми тремя формами проблемного поведения. Исследователь, который не понимает, как делать хорошую науку, но иначе хочет добиться успеха, будет иметь больший стимул искажать свои результаты и с меньшей вероятностью будет соблюдать принципы этического анализа данных.
Вышеуказанные различия имеют значение для выявления проблемного поведения. Например, если вам удается определить, что набор сообщенных результатов неверен, все равно необходимо выяснить, были ли результаты получены в результате мошенничества, ошибок или ненадлежащего поведения. Кроме того, я бы предположил, что различные формы ненадлежащего поведения встречаются гораздо чаще, чем мошенничество.
Что касается выявления проблемного поведения, я думаю, что это в значительной степени навык, который приходит из опыта работы с данными , работы с темой и работы с исследователями, Все это повышает ваши ожидания относительно того, как должны выглядеть данные. Таким образом, серьезные отклонения от ожиданий начинают процесс поиска объяснения. Опыт работы с исследователями дает вам представление о видах неподобающего поведения, которые более или менее распространены. В сочетании это приводит к генерации гипотез. Например, если я читаю статью в журнале и меня удивляют результаты, исследование недостаточно силено, а характер написания предполагает, что автор настроен на то, чтобы поставить точку, я выдвигаю гипотезу о том, что результаты, возможно, не следует доверять.
Другие источники
источник
На самом деле, закон Бенфорда - невероятно мощный метод. Это связано с тем, что частотное распределение первой цифры в Бенфорде применимо ко всем видам данных, которые встречаются в реальном или естественном мире.
Вы правы в том, что можете использовать закон Бенфорда только при определенных обстоятельствах. Вы говорите, что данные должны иметь равномерное распределение журналов. Технически это абсолютно правильно. Но вы могли бы описать требование гораздо проще и мягче. Все, что вам нужно, это то, что диапазон набора данных пересекает хотя бы один порядок величины. Скажем, от 1 до 9 или от 10 до 99 или от 100 до 999. Если оно пересекает два порядка, вы занимаетесь бизнесом. И закон Бенфорда должен быть очень полезным.
Прелесть закона Бенфорда в том, что он помогает вам очень быстро сузить расследование по иголке (ам) в стоге сена. Вы ищете аномалии, в которых частота первой цифры сильно отличается от частоты Бенфорда. Как только вы заметили, что есть две многие 6, вы используете закон Бенфорда, чтобы сосредоточиться только на 6; но теперь вы берете его на первые две цифры (60, 61, 62, 63 и т. д.). Теперь, может быть, вы обнаружите, что есть намного больше 63-х, чем то, что предлагает Бенфорд (вы бы сделали это, рассчитав частоту Бенфорда: log (1 + 1/63), которая дает значение, близкое к 0%). Итак, вы используете Benford до первых трех цифр. К тому времени, когда вы обнаружите, что существует слишком много 632-х (или что-то еще, вычисляя частоту Бенфорда: log (1 + 1/632)), чем вы ожидали, вы, вероятно, к чему-то. Не все аномалии являются мошенничеством. Но,
Если набор данных, которыми манипулировал Марк Хаузер, является естественными неограниченными данными со связанным диапазоном, который был достаточно широк, то закон Бенфорда был бы довольно хорошим диагностическим инструментом. Я уверен, что есть и другие хорошие диагностические инструменты, которые также обнаруживают маловероятные паттерны, и, комбинируя их с законом Бенфорда, вы, скорее всего, могли бы эффективно расследовать дело Марка Хаузера (принимая во внимание упомянутое требование к данным закона Бенфорда).
Я объясняю Закон Бенфорда немного подробнее в этой короткой презентации, которую вы можете увидеть здесь: http://www.slideshare.net/gaetanlion/benfords-law-4669483
источник