Кто-нибудь знает, как Google или Yahoo выполняют поиск по ключевым словам по очень очень большим объемам данных? Какую базу данных или технологии они используют для этого?
Это занимает несколько миллисекунд, но они проиндексированы более чем на миллиард страниц.
database-design
full-text-search
rkosegi
источник
источник
Ответы:
Я уверен, что есть сочетание вещей:
многие из них - данные распределены и реплицированы по многим узлам и различным центрам обработки данных
источник
Голуби .
Сердцем поисковой технологии Google является PigeonRank ™ , система ранжирования веб-страниц, разработанная основателями Google Ларри Пейджем и Сергеем Брином из Стэнфордского университета:
источник
Важно помнить несколько вещей о Google:
Их база данных - это запатентованная BigTable - она была разработана специально для GOOGLE, чтобы точно соответствовать их потребностям
Их собственная БД построена на основе их собственной файловой системы - Файловой системы Google - она была разработана, опять же, GOOGLE , чтобы ее можно было легко расширять с помощью обычного аппаратного обеспечения. Как отметил Аарон в своем ответе, они имеют большое количество средних серверов вместо небольшого количества очень мощных серверов.
Они хранят отдельные таблицы на нескольких машинах, чтобы ускорить доступ - их программное обеспечение знает, какие данные находятся на какой машине, и вместо того, чтобы перебирать диск, чтобы найти его, можно сразу перейти к серверу с соответствующей информацией.
источник
Google не использует традиционные технологии реляционных баз данных. Он разработал собственную технологию, большой стол и карту сокращения. Оригинальные исследовательские работы здесь: Big Table и Map / Reduce . Также интерес представляет таблица отсортированных строк SSTable .
Подобные технологии сейчас используются в hadoop и базах данных NoSQL .
источник
Прочитайте статью Стивена Леви « В плексе: как Google думает, работает и формирует нашу жизнь ». Эта книга представляет собой увлекательное чтение обо всех вещах Google и действительно обсуждает на высоком уровне некоторые технологии и разработки, лежащие в основе поиска. Аарон очень хорошо резюмирует это в своем ответе, и книга Леви даст вам более подробную информацию о том, как они это делают.
источник