Akismet отлично справляется с обнаружением спам-комментариев. Но в наши дни комментарии - не единственная форма спама. Что делать, если я хотел что-то вроде Akismet автоматически обнаруживать порно изображений на сайт социальной сети, которая позволяет пользователям загружать свои фото, аватары, и т.д.?
Уже существует несколько поисковых систем, основанных на изображениях, а также средства распознавания лиц, поэтому я предполагаю, что это не ракетостроение, и это можно сделать. Однако я понятия не имею, как это работает и как мне это делать, если я хочу разработать его с нуля.
С чего мне начать?
Есть ли для этого какой-нибудь проект с открытым исходным кодом?
spam-prevention
Радж
источник
источник
Ответы:
Это было написано в 2000 году, не уверен, что если состояние искусства в порно обнаружения выдвигало на всех, но я сомневаюсь в этом.
http://www.dansdata.com/pornsweeper.htm
источник
На самом деле это довольно просто. Вы можете обнаружить программно тона кожи - и порно изображения, как правило, имеет много кожи. Это приведет к ложным срабатываниям, но если это проблема, вы можете передать изображения, обнаруженные таким образом, через фактическую модерацию. Это не только значительно сокращает работу для модераторов, но и дает много свободного порно. Это беспроигрышный вариант.
Этот код измеряет оттенки кожи в центре изображения. Я тестировал на 20 относительно ручных «порно» образов и 20 совершенно невинных изображений. Она флаги 100% от «порно» и 4 из 20 чистых изображений. Это довольно высокий процент ложных срабатываний, но сценарий старается быть достаточно осторожным и может быть дополнительно доработан. Подходит для светлых, темных и азиатских тонов кожи.
Его основные недостатки с ложными срабатываниями - коричневые объекты, такие как песок и дерево, и, конечно, он не знает разницы между «непослушной» и «красивой» плотью (например, снимки лица).
Слабостью ложных негативов будут изображения без сильно обнаженной плоти (например, кожаная бондаж), окрашенная или татуированная кожа, черно-белые изображения и т. Д.
исходный код и образцы изображений
источник
Я бы предпочел позволить пользователям сообщать о плохих изображениях. Разработка распознавания изображений может потребовать слишком много усилий и времени и будет не такой точной, как человеческий глаз. Гораздо дешевле передать эту работу модератора на аутсорсинг.
Взгляните на: Amazon Mechanical Turk
« Amazon Mechanical Turk (MTurk) является одним из набора Amazon Web Services, рынка краудсорсинга, который позволяет компьютерным программам координировать использование человеческого интеллекта для выполнения задач, которые компьютеры не могут выполнять».
источник
источник
БУМ! Вот технический документ, содержащий алгоритм.
Кто-нибудь знает, где взять исходный код для реализации java (или любого языка)?
Это было бы здорово.
Один алгоритм под названием WISE имеет коэффициент точности 98%, но ложноположительный результат составляет 14%. Итак, что вы делаете, вы позволяете пользователям отмечать 2% ложных срабатываний, в идеале с автоматическим удалением, если это отметит определенное количество пользователей, и заставляете модераторов просматривать 14% ложных срабатываний.
источник
Nude.js основан на техническом документе Ригана Апапида из Университета Де Ла Саль.
источник
Существует программное обеспечение, которое определяет вероятность порно, но это не точная наука, как компьютеры не может распознать, что на самом деле на изображениях (изображения только большой набор значений на сетке, без смысла). Вы можете просто научить компьютер, что порно, а что не давая примеры. Его недостаток состоит в том, что он распознает только эти или похожие изображения.
Учитывая повторяющийся характер порно у вас есть хороший шанс, если вы тренируетесь системы с несколькими ложных срабатываний. Например, если вы тренируетесь системы с обнаженными людьми он может флаг фотографию пляжа с «почти» голыми людьми, как порно тоже.
Похожее программное обеспечение - программное обеспечение facebook, которое недавно вышло. Он просто специализируется на лицах. Главный принцип тот же.
Технически вы бы реализовали какой-то детектор функций, который использует байесовскую фильтрацию. Детектор функции может найти такие функции, как процент телесного цвета пикселей, если это простой детектор или просто вычисляет сходство текущего изображения с набором сохраненных порно изображений.
Это, конечно, не ограничивается порно, это на самом деле больше угол случай. Я думаю, что более распространены системы, которые пытаются найти что-то другое в изображениях ;-)
источник
Ответ действительно прост: можно с уверенностью сказать, что в ближайшие два десятилетия это будет невозможно. До этого мы, вероятно, получим хорошие инструменты для перевода. В последний раз, когда я проверял, ребята из ИИ изо всех сил пытались идентифицировать одну и ту же машину на двух фотографиях, сделанных под немного измененным углом. Посмотрите, сколько времени им потребовалось, чтобы вместе получить достаточно хорошее распознавание текста или OCR. Это проблемы распознавания, для которых словари могут принести большую пользу, и они все еще далеки от полностью надежных решений, несмотря на затраченные на них многомиллионные человеко-месяцы.
При этом вы могли бы просто добавить «наступление»? ссылка рядом с созданным пользователем заявлением и модом для перекрестной проверки входящих жалоб.
редактировать:
Я кое-что забыл: ЕСЛИ вы собираетесь реализовать какой-то фильтр, вам понадобится надежный. Если ваше решение будет правильным на 50%, 2000 из 4000 пользователей с приличными изображениями будут заблокированы. Ожидайте возмущения.
источник
Аспирант Национального университета Ченг Кунг на Тайване провел исследование на эту тему в 2004 году. Ему удалось добиться 89,79% успеха в обнаружении изображений обнаженной натуры, загруженных из Интернета. Вот ссылка на его диссертацию: Исследование по обнаружению изображений обнаженных людей на основе цвета кожи.
Оно на китайском языке, поэтому вам может понадобиться переводчик, если вы не можете его прочитать.
источник
короткий ответ: воспользуйтесь модератором;)
Длинный ответ: Я не думаю, что есть проект по этой причине, что это порно? Только ноги, полная нагота, карлики и т.д. Это субъективно.
источник
Добавьте оскорбительную ссылку и сохраните md5 (или другой хеш) оскорбительного изображения, чтобы его можно было автоматически пометить в будущем.
Как было бы здорово, если бы у кого-то была большая общедоступная база данных изображений md5 вместе с описательными тегами, работающими как веб-сервис? Alot порно не оригинальная работа (в том, что человек, который имеет сейчас, вероятно, не сделать это), и популярные изображения, как правило, плавают в разных местах, так что это может реально изменить ситуацию.
источник
Если у вас действительно есть время и деньги:
Один из способов сделать это: 1) написать алгоритм обнаружения изображения, чтобы определить, является ли объект человеком или нет. Это можно сделать, применив растровую маску к изображению, чтобы получить его «контуры» и посмотреть, подходят ли контуры к человеческому контуру.
2) Данные шахты много порно изображений и методов добычи использования данных, такие как алгоритмы C4 или Particle Swarm Optimization научиться обнаруживать рисунок, который соответствует порно изображений.
Для этого вам потребуется определить, как должны выглядеть контуры обнаженного мужчины / женщины в оцифрованном формате (это может быть достигнуто таким же образом, как работают алгоритмы распознавания изображений OCR).
Надеюсь, тебе весело! :-)
источник
Мне кажется, как главное препятствие определения «порно изображения». Если бы вы могли легко определить это, вы, вероятно, могли бы написать что-то, что сработало бы. Но даже люди не могут договориться о том, что порно. Как приложение узнает? Пользовательская модерация, вероятно, ваш лучший выбор.
источник
Я видел это приложение веб-фильтрации, которая делает фильтрацию порно изображения, жаль, что я не могу вспомнить название. Он был довольно подвержен ложным срабатываниям, однако большую часть времени работал.
Думаю, главный трюк - это обнаружить "слишком много кожи на картинке :)
источник
Детектирование порно изображения еще определенная AI задача, которая является очень теоретическим еще.
Добейтесь коллективной власти и человеческого интеллекта, добавив кнопку / ссылку «Сообщить о спаме / злоупотреблении». Или наймите для этой работы нескольких модераторов.
PS Действительно удивлен, как много людей задают вопросы, предполагая, что программное обеспечение и алгоритмы всесильны, даже не задумываясь, можно ли сделать то, что они хотят. Являются ли они представителями того нового поколения программистов, у которых нет понимания аппаратного обеспечения, низкоуровневого программирования и всего этого «волшебства»?
PS # 2. Я также помню, что периодически случается, что какая-то ситуация, когда сами люди не могут решить, является ли порно изображения или искусство доставлено в суд. Даже после того, как суд вынесет решение, есть вероятность, что половина людей сочтет это решение неправильным. Последняя такая глупая ситуация произошла совсем недавно, когда в Великобритании запретили страницу в Википедии из-за обложки компакт-диска, на которой изображена некоторая нагота.
источник
Два варианта я могу думать (хотя ни один из них программно обнаружения порно):
источник
BrightCloud веб - сервис API идеально подходит для этого. Это REST API для подобного поиска на веб-сайтах. Он содержит очень большую и очень точную фильтрацию веб - БД и одной из категорий, взрослый, имеет более чем 10 миллионов порносайтовы идентифицированные!
источник
Я слышал об инструментах, использующих очень простой, но достаточно эффективный алгоритм. Алгоритм рассчитал относительное количество пикселей со значением цвета, близким к некоторым предопределенным цветам «кожи». Если эта сумма превышает некоторое заданное значение , то изображение считается эротического / порнографического содержания. Конечно, этот алгоритм даст ложноположительные результаты для фотографий лица крупным планом и многого другого.
Поскольку вы пишете о социальных сетях, там будет много «нормальных» фотографий с большим количеством цвета кожи, поэтому вам не следует использовать этот алгоритм, чтобы отклонять все фотографии с положительным результатом. Но вы можете использовать его, чтобы помочь модераторам, например, пометить эти изображения с более высоким приоритетом,
источник
Этот выглядит многообещающим. В основном они обнаруживают кожу (с калибровкой путем распознавания лиц) и определяют «пути кожи» (т.е. измеряют пропорцию пикселей кожи по сравнению с пикселями кожи лица / пикселями кожи). Это приличная производительность. http://www.prip.tuwien.ac.at/people/julian/skin-detection
источник
Посмотрите на имя файла и любые атрибуты. Информации почти не хватает для обнаружения даже 20% непристойных изображений, но простой черный список ключевых слов по крайней мере обнаружит изображения с описательными метками или метаданными. 20 минут кодирования для 20% успеха - неплохое дело, особенно в качестве предварительного экрана, который может хотя бы отловить некоторые простые, прежде чем вы передадите остальное модератору для оценки.
Другой полезный трюк, конечно же, противоположный, ведение белого списка источников изображений без модерации или проверки. Если большая часть ваших изображений поступает от известных безопасных загрузчиков или источников, вы можете просто принять их без привязки.
источник
- Судья Верховного суда США Поттер Стюарт, 1964 г.
источник
Вы можете найти в сети множество официальных документов по этой теме.
источник
Это не ракетостроение. Уже нет. Это очень похоже на распознавание лиц. Я думаю, что самый простой способ справиться с этим - использовать машинное обучение. И поскольку мы имеем дело с изображениями, я могу указать на нейронные сети, потому что они кажутся предпочтительными для изображений. Вам потребуются данные для обучения. И вы можете найти массу обучающих данных в Интернете, но вы должны обрезать изображения до той части, которую вы хотите, чтобы алгоритм обнаружил. Конечно, вам придется разбить проблему на разные части тела, которые вы хотите обнаружить, и создать тренировочные данные для каждой, и здесь все становится забавным.
Как кто-то сказал выше, это невозможно сделать на 100%. Будут случаи, когда такие алгоритмы не работают. Фактическая точность будет определяться вашими тренировочными данными, структурой ваших нейронных сетей и тем, как вы выберете кластеризацию тренировочных данных (пенисы, влагалища, груди и т. Д., А также их комбинации). В любом случае, я очень уверен, что это может быть достигнуто с высокой точностью для явного порно изображений.
источник
Это детектор наготы. Я не пробовал. Это единственный OSS, который я смог найти.
https://code.google.com/p/nudetech
источник
Невозможно сделать это на 100% (я бы сказал, возможно, 1-5% было бы правдоподобно) с сегодняшними знаниями. Вы получите гораздо лучший результат (чем те 1-5%), просто проверив имена изображений на слова, связанные с сексом :).
@SO Troll: Верно.
источник