Как крупные сайты, такие как StackOverflow, обрабатывают свои журналы доступа?

8

Мне интересно, как крупные сайты, такие как StackOverflow, обрабатывают свои журналы доступа. Запись на диск по каждому запросу кажется немного неэкономичной, но насколько надежна Google Analytics, чтобы использовать ее в качестве единственного информационного ресурса?

Стивен Остермиллер
источник
Вы можете настроить Apache для входа в базу данных. Я полагаю, что IIS такой же.
Lèse Majesté

Ответы:

2

В системе * nix вы можете использовать syslog-ng для хранения сообщений журнала на выделенном сервере журналов для кластеров с балансировкой нагрузки, а затем использовать решение для анализа журналов, такое как Splunk, для отслеживания событий - что касается сайтов StackExchange. на самом деле запустить, может быть, хороший вопрос для StackOverflow Meta .

danlefree
источник
Кто-нибудь еще спрашивал, что использует стек?
theonlygusti
2

В журналах веб-сервера содержится много информации, которая никогда не будет доступна для Google Analytics. Вот две вещи, о которых я могу подумать:

  • Ошибки вроде 404 и т. Д.
  • Доступ к медиафайлам, таким как изображения и т. Д. (Включая внешние веб-сайты, ссылающиеся на ваши изображения)
  • IP-адреса, хотя в ответе на другой вопрос указывалось, что его можно установить как переменную пользователя
  • Полные реферальные URL, например, Google отправляет ссылки из поиска продукта, веб-поиска и т. Д. Каждый поиск имеет ключевые слова, но Google Analytics не отображает другие переменные, такие как &source=productsи т. Д.

Должно быть больше вещей, о которых я просто не могу думать прямо сейчас.

И есть также журналы ошибок; должно быть важно, чтобы сайт работал нормально, на мой взгляд. Не то, что вы игнорировали бы.

Евгений
источник
Это правильно, но как они хранят свои журналы? Файл или база данных, предложенные Lèse Majesté, кажутся мне тяжелыми.
На самом деле, когда вы копируете такие повторяющиеся данные ... они действительно хорошо сжимаются. Итак, я думаю, вы можете просто сохранить его в виде сжатых текстовых файлов и удалить их через некоторое время ... просто ваш основной поворот.
Евгений
0

Я действительно не смотрю на эти журналы и в конечном итоге удаляю их ежемесячно. Я только смотрю на них для устранения проблем. Что касается приложения для мониторинга использовать Google Analytics, CrazyEgg и другие делают большую работу.

До появления таких сервисов эти журналы были очень ценными. Теперь они являются хорошими инструментами для разработчиков, но я не знаю ни одного из моих коллег или друзей, которые бы активно архивировали эти журналы или анализировали их на предмет данных.

Фрэнк
источник