Почему на первой странице Google говорит, что есть тысячи результатов, а на последней странице меньше сотни?

11

Почему на первой странице Google говорит, что есть тысячи результатов, а на последней странице меньше сотни?

Это своего рода рекурсивный поиск в Google, который не требует пояснений. Мне потребовалось некоторое время, чтобы настроить предложение и попытаться найти число, которое точно соответствовало бы, причина, почему я вместо этого изменил его на « сотни »! :П

Если вы использовали Google достаточно долго, вы наверняка сталкивались с подобными ситуациями много раз. Всякий раз, когда он показывает менее 10 страниц, это довольно легко увидеть. Дело в том, что количество результатов на любой странице, кроме последней, кажется ужасной оценкой .

Что еще более странно, в некоторые случайные моменты времени оценка внезапно становится намного лучше и почти одинаковой на всех страницах, чем на последней странице - единственной странице, которая всегда верна.

Итак, кто-нибудь знает почему?

cregox
источник
1
Прямо сейчас на первой странице этого поиска написано 3200 результатов, а на последней странице написано 75 (для людей, заинтересованных в обновлении)
dkuntz2
@DKuntz это 2990 и 65 для меня (пока я вошел в систему), в то время как если я выйду из системы (что я и сделал в первый раз), это превратится в 3120 и 77. Возможно, позже я немного изменю вопрос и соберу более последовательный рекурсивный запрос - но любой может это сделать! : P
cregox
Гугл странный
dkuntz2
Мой всегда говорит 208 результатов на последней странице, будь то 4 страницы результатов или 22, это всегда говорит 208.
mchid
Смотрите также searchengineland.com/...
1110101001

Ответы:

6

Я не знаю точного ответа - возможно, никто за пределами Google не знает. Но у меня есть две точки данных, которые могут быть полезны.

Первый - XKCD по этому вопросу:

Так что на самом деле похоже, что есть определенный порог объема результатов, после которого Google, по-видимому, говорит «винт это» и выбрасывает гигантское число. Я предполагаю, что это, вероятно, связано с некомпетентностью, а не с преднамеренным обманом; Я уверен, что трудно быстро генерировать страницы из многих источников, и, возможно, при поиске с большим количеством результатов у них нет времени, чтобы все это синхронизировать. Таким образом, они обманывают числа. Тот факт, что это выглядит так, как будто у них гораздо больше результатов, чем у них, по-видимому, просто непреднамеренный бонус.

Второй пункт данных принадлежит мне профессору компьютерных наук, который был весьма любопытен к этой проблеме и беспокоил некоторых друзей из Google по этому поводу. Они сказали ему, что иногда становится очень дорого выяснить, сколько результатов действительно было возвращено в результате поиска, поэтому они просто делают предположение и возвращают первую страницу результатов, которая интересует большинство людей. Только когда вы действительно начнете просматривать страницы, Google потрудится полностью рассчитать оставшиеся страницы.

Таким образом, ни один из них не является окончательным ответом, но, надеюсь, они будут полезны при объяснении видов проблем, которые могут вызывать неточности Google.

РЕДАКТИРОВАТЬ:

Ответ Сатья на этой странице имеет ответ от веб -мастера Google КБ.

Когда вы выполняете поиск, результаты часто отображаются с информацией: Результаты 1 - 10 о XXXX.

Google рассчитывает общее количество результатов поиска и является оценочным. Мы понимаем, что приблизительный показатель является ценным, и, предоставляя оценку, а не точный отчет, мы можем быстрее возвращать качественные результаты поиска.

Кроме того, при нажатии на следующую страницу результатов поиска, общее количество результатов поиска может измениться. В этом случае мы понимаем, что некоторые результаты запроса являются дубликатами, и сворачиваем эти дубликаты, чтобы вам было легче найти конкретный результат, который вы ищете. Свертывание дубликатов уменьшает предполагаемое количество результатов, а также общее количество страниц с результатами.

dsolimano
источник
Хотя я люблю XKCD и дорогих бывших учителей, вы говорите мне, что мне, вероятно, следует спросить об этом на stackoverflow.com: P
cregox
Я не думаю, что кто-то в stackoverflow будет иметь окончательный ответ - если вам действительно нужно знать, вы должны спросить Google. Я могу передать ответ только от кого-то, кто спросил Google несколько месяцев назад.
Дсолимано
не ищите окончательного ответа, просто с более глубоким объяснением, желательно с хорошим источником. Не поймите меня неправильно, вы разумны, но сказать «потому что это сложно», даже если это авторитетно и имеет смысл, для меня слишком мало. Хм ... может быть,
skeptics.se
Хорошее редактирование, теперь это хороший источник! Хотя он все еще говорит «потому что это сложно», а это значит, что я все еще надеюсь на более подробную информацию. : P
cregox
7

Нет - это только приблизительное число .

Когда вы выполняете поиск, результаты часто отображаются с информацией: Результаты 1 - 10 о XXXX.

Google рассчитывает общее количество результатов поиска и является оценочным. Мы понимаем, что приблизительный показатель является ценным, и, предоставляя оценку, а не точный отчет, мы можем быстрее возвращать качественные результаты поиска.

Кроме того, при нажатии на следующую страницу результатов поиска, общее количество результатов поиска может измениться. В этом случае мы понимаем, что некоторые результаты запроса являются дубликатами, и сворачиваем эти дубликаты, чтобы вам было легче найти конкретный результат, который вы ищете. Свертывание дубликатов уменьшает предполагаемое количество результатов, а также общее количество страниц с результатами.

Сатьяджит Бхат
источник
Я думаю, что это нехорошее поведение, если они всегда ограничивают количество результатов более или менее 1000. Если пользователь хочет больше, он должен показать больше. На мой взгляд, некоторые общие ключевые слова должны возвращать действительно большое количество результатов поиска (например, цветок, книга ...), и я думаю, что в Интернете существует множество различных картинок!
@ user11656 вы предполагаете, что поиск картинок Google работает так же, как поиск в стандартном приложении, которое вы можете использовать. Вещи обычно работают совсем по- другому в этом масштабе. Вероятно, не существует единого ответа для «всех изображений, которые соответствуют цветку», поскольку сервер в Австралии может иметь недавно загруженное изображение, которое еще не было распространено на сервер в США. Затем вам приходится иметь дело с такими вещами, как, как представлять дубликаты, и как сделать все это на миллионах изображений для миллионов пользователей мгновенно. Это тяжелые вещи, и вы должны пойти на архитектурные компромиссы.
Джордж Мауэр
3

Результаты Google являются бессмысленным показателем . Помимо свертывания дубликатов, у вас также есть основа, способ, которым счет рассчитывается в первую очередь путем умножения частот, и тот факт, что Google устанавливает ограничение, которое устанавливает максимальное количество результатов, которые когда-либо будут возвращены.

JdeBP
источник
2

Ни один из ответов выше не является правильным.

Оценка Google должна быть ближе к реальному количеству результатов, чем указано.

Это можно показать на простом примере. Выберите довольно частое слово, например, «Россия» или «Майкл». По правде говоря, в Интернете должны быть тысячи, если не сотни тысяч веб-сайтов, на которых есть эти слова. Но результаты Google могут дать вам, скажем, 700.

Правда не в том, что Google дает огромные завышения, а в том, что теперь Google значительно ограничивает количество результатов, которые он вам даст. Это серьезно сводит на нет результаты, к нашему серьезному ущербу как личности. К сожалению, в некоторых случаях я хочу прочитать тысячи сайтов со своими терминами.

Я знаю это, потому что я использовал Google в течение длительного времени, возможно, 10-15 лет, и заметил, что, как правило, результаты для терминов становятся короче, а не дольше, даже если количество сайтов с одинаковыми терминами обычно должно увеличились за то время, что я использую Google.

Если в прошлом, много лет назад я мог получить, возможно, 1000 результатов для некоторых терминов, то теперь я получаю 500 результатов для тех же терминов, для которых я получил бы 1000 результатов.

Раковский
источник
2
Обратите внимание, что «выше» не имеет контекста в ответах, так как они могут быть отсортированы несколькими различными способами. Даже если вы примете сортировку по умолчанию по «голосам», их позиции будут меняться по мере добавления голосов «за» и «против».
Эль
Очень интересно! Россия дает мне сейчас только 322 результата, и это видно только на самой последней 34-й странице . До этого было бы 799 000 000 результатов! Хотя это хорошее понимание, оно все еще кажется неправильным. Я не думаю, что первые оценки также верны, и намерение приносит только результаты, которые показаны, а не «сколько, по их мнению, существует в Интернете», следовательно, последняя страница исправляет это.
Cregox
1

Проблемы с поисковой системой Google (Image) заключаются в том, что она стремится к релевантности, отбрасывая дисперсию. Во-первых, важно понять, как это работает. Изображение, загруженное в Интернет, должно быть проиндексировано двумя способами:

  • на основе оригинальности (изображение анализируется «умным ботом» на основе цвета, размера, узоров, распознавания формы, типа и т. д.)
  • на основе сходства (изображение анализируется «умным ботом2» и сопоставляется с уже существующими изображениями в базе данных и дополнительно помечается одной или двумя метками категорий: «изображение соответствует» и «изображение похоже на ...» «)

После завершения индексации изображение будет наследовать «ключевые слова» в результате распознавания, чтобы избежать показа не по теме результатов конечному пользователю. Дело в том, что каждое ключевое слово представляет собой отдельную фразу с присвоенным значением в% на основе степени релевантности (поэтому группирование большего количества слов в окне поиска приводит к меньшему количеству результатов, а также при поиске изображения путем его загрузки или ввода URL, Google назначит "предположение" только с ключевыми словами, что означает, что поиск никогда не покажет вам все картинки просто потому, что поиск не предназначен для этого)

Таким образом, в конце дня, когда вы выполняете поиск изображений и прямо под окном поиска, вы увидите огромное число, говорящее «25 270 000 000 результатов (0,55 секунды)», это в основном всегда фальшивое число, потому что вы больше не получите чем 200 (макс. 500, но только после запроса пользователя) результаты, которые также фильтруются для исключения:

  • внешние дубликаты (если одно и то же изображение 2+ раза на одной странице сайта)
  • дубликаты релевантности (показывает только «лучшие результаты» - см. изображение ниже)
  • изображения, имеющие проблемы с законом (см. изображение ниже)
  • изображения, которые нарушают DMCA (см. изображение ниже)
  • изображения, исходящие из источников СПАМ, ЗОЛОТО, ФИШИНГ
  • изображения, которые скрыты (если пользователь не отключил безопасный поиск)
  • изображения, занесенные в черный список Google ( статья )
  • изображения с различным AR (в основном все изображения, которые имеют другое соотношение сторон, чем ссылка для поиска изображения. Например, вы можете пропустить все желаемые результаты, если будете искать по выбранному вами изображению - скажем, со странным соотношением 9: 7 - тогда как все изображения проиндексированы Google имеет соотношение 3: 4 - что, возможно, является самым большим недостатком этой поисковой системы, потому что она всегда подчиняется соотношению сторон в качестве первого критерия)
  • и еще куча

Подводя итог: результаты поиска изображения никогда не являются полностью релевантными. Иногда вы получите конечный желаемый результат с поисковой фразой «gate poster», иначе это может быть «gate cover», «gate bluray», «gate dvd», «gate 2015» или даже «自衛隊 彼 の 地 に て 斯 く 戦»り り "- вы просто не можете получить" ВСЕ "результаты изображения, потому что нет ничего, что является" ВСЕМ ", поэтому для этого нужно поиграть с ним. А также уместно упомянуть, что есть другие поисковые движки изображений, которые могут выполнять работу более по-разному, потому что они работают по разным стандартам и критериям. Это не было и никогда не было "Google" - только ... >> https://www.yandex.com/images/

Известные расширения:

Пользователь0
источник
Опять же, пометить их как дубликаты было бы гораздо полезнее, чем разместить ответ на каждый вопрос.
Jonsca
0

Вверху написано страница 70 из 7000 результатов (пример). Это даст номер страницы и сколько результатов. Там не 70 результатов, а 70 страниц. Надеюсь это поможет.

Аарон Форд
источник