Как recaptcha знает, что вы не вводите поддельные переводы фотографий [закрыто]

22

Из того, что я понимаю, капчи - это текст, искаженный применением фильтров, шумов и других ошибочных алгоритмов. Поэтому, чтобы выяснить, является ли человек способностью к чтению, вы сравниваете то, что они ответили, с тем, что является известным ответом.

Теперь, читая о ReCaptcha, он говорит, что слова, которые отображаются, это те, которые не могут быть переведены OCR. Кроме того, recaptcha используется для перевода этих изображений. Как он может определить, действительно ли вы правы в своем чтении или просто придумываете что-то?

Если бы он знал, что он сказал, он не был бы использован в резюме в качестве материала для перевода. Если он не знает, что говорит текст, то как он проверяет ваш ответ?

Я предполагаю, что это, вероятно, некоторый вероятностный анализ с огромными размерами выборки, прежде чем он помечает что-либо как переведенное.

Кто-нибудь знает, где ответ на это?

Zigu
источник
3
Интерес представляет анонимная шутка 4chan в опросе времени. «Мраморный пирог, также игра», в котором использованы недостатки в краудсорсинговой проверке второго слова.
DanBeale
2
Взломать @Dan mentioend: musicmachinery.com/2009/04/27/moot-wins-time-inc-loses
BlueRaja - Дэнни Пфлугхофт

Ответы:

33

Страницы книги в основном фотографически сканируются, а затем преобразуются в текст с помощью «Оптического распознавания символов» (OCR) и передаются в Интернет в виде изображения с одним словом, известным компьютерной программе за reCAPTCHA, и одним словом, которое не является еще известно.

Затем пользователь вводит оба слова, и если они решают то, для которого известен ответ, система предполагает, что их ответ верен для нового. Затем система передает новое изображение ряду других людей, чтобы с большей уверенностью определить, был ли первоначальный ответ правильным. Следовательно, система - это самосовершенствующийся сервис, который со временем улучшается.

http://www.google.com/recaptcha/learnmore

Павел
источник
22

Вот почему в reCaptcha вы вводите два слова. Одно из слов уже известно, а одно из слов не известно. Пройдете ли вы или не сдадите капчу, зависит только от того, как вы ответите за известное слово. Ваш ответ для другого (неизвестного) слова будет использоваться вместе с другими ответами на то же слово, чтобы превратить его в известное слово.

Джоэл Коухорн
источник
4
... именно поэтому со временем это становится все более и более неприятным в использовании и убеждает вас в том, что вы идиот / робот, когда вы терпите неудачу в нем в пятый раз подряд. :-(
Sirex
Странно ... Я никогда не подводил тот, который я помню, возможно, просто удачу с моей стороны.
Пол
@Sirex Раньше я так думал, но потом понял, что это верно только в том случае, если размер текстового корпуса постоянен или уменьшается по отношению к количеству записей капчи. Правда заключается в том, что объем текстов растет ... вопрос в том, идет ли этот рост в ногу с ростом общего использования капчи.
Джоэл Коухорн
Да, я полагаю. Я видел много reCaptchas, которые просто безумно сложны. Где даже известное слово неоднозначно.
Sirex