У вас есть какие-нибудь полезные скрипты awk и grep для разбора логов apache? [закрыто]

70

Я могу использовать анализаторы логов, но часто мне нужно анализировать последние веб-логи, чтобы увидеть, что происходит в данный момент.

Я иногда делаю вещи, как выяснить топ-10 ips, которые запрашивают определенный файл

cat foo.log | grep request_to_file_foo | awk '{print $1}' |  sort -n | uniq -c | sort -rn | head

Что у вас есть в вашем наборе инструментов?

deadprogrammer
источник
1
У меня действительно было это большое красивое регулярное выражение, которое я написал вручную, чтобы проанализировать все мои пользовательские журналы apache до отдельных полей для отправки в базу данных. Я пинаю себя, что у меня его больше нет. Это был один лайнер; дал вам одну переменную для каждого элемента журнала - затем я вставлял в MySQL. Если я найду это, я отправлю это здесь.
Кайл Ходжсон

Ответы:

54

С помощью только файлов awk вы можете делать что угодно с файлами журналов apache. Файлы журнала Apache в основном разделены пробелами, и вы можете делать вид, что кавычки не существуют, и получать доступ к любой интересующей вас информации по номеру столбца. Единственный раз, когда это выходит из строя, это если у вас есть объединенный формат журнала и вы заинтересованы в пользовательских агентах, после чего вы должны использовать кавычки (") в качестве разделителя и выполнить отдельную команду awk. Далее будут показаны IP-адреса каждый пользователь, который запрашивает страницу индекса, отсортирован по количеству просмотров:

awk -F'[ "]+' '$7 == "/" { ipcount[$1]++ }
    END { for (i in ipcount) {
        printf "%15s - %d\n", i, ipcount[i] } }' logfile.log

7 $ - запрошенный URL. Вы можете добавить любые условия, которые вы хотите в начале. Замените '$ 7 == "/" любой информацией, которую вы хотите.

Если вы замените $ 1 в (ipcount [$ 1] ++), то вы можете сгруппировать результаты по другим критериям. Использование $ 7 покажет, какие страницы были доступны и как часто. Конечно, тогда вы захотите изменить условие в начале. Ниже будет показано, какие страницы были доступны пользователю с определенного IP:

awk -F'[ "]+' '$1 == "1.2.3.4" { pagecount[$7]++ }
    END { for (i in pagecount) {
        printf "%15s - %d\n", i, pagecount[i] } }' logfile.log

Вы также можете передать вывод через sort, чтобы получить результаты по порядку, либо как часть команды оболочки, либо также в самом скрипте awk:

awk -F'[ "]+' '$7 == "/" { ipcount[$1]++ }
    END { for (i in ipcount) {
        printf "%15s - %d\n", i, ipcount[i] | sort } }' logfile.log

Последнее будет полезно, если вы решите расширить скрипт awk для распечатки другой информации. Все дело в том, что вы хотите узнать. Они должны служить отправной точкой для всего, что вас интересует.

отметка
источник
Да, всегда странно видеть сумасшедшие длинные конвейеры cat / grep / awk. Как только вы попадаете в awk, этого обычно достаточно. Первые три пункта оригинального сообщения могут быть тривиально написаны как "awk" / request_to_file_foo / {print $ 1} 'foo.log ". awk может принимать файл в качестве входных данных и использовать регулярные выражения, чтобы знать, какие строки нужно учитывать.
Зак Томпсон
Элегантно и просто. Хороший.
Оливье Дюлак
Остерегайтесь пробелов в поле «authuser» (3-е), которое нарушает все, и я лично считаю, что это должно быть запрещено, чтобы мы могли это делать ;-)
Mandark
23

По причинам, которые я не могу себе представить, я никогда не видел, чтобы кто-то еще делал это, изменив формат файла журнала Apache на более легко разбираемую версию с информацией, которая действительно важна для вас.

Например, мы никогда не используем базовую аутентификацию HTTP, поэтому нам не нужно регистрировать эти поля. Я буду заинтересован в том , как долго каждый запрос занимает служить, поэтому мы добавим , что в. Для одного проекта, мы также хотим знать (на нашей балансировке нагрузки) , если любые сервера обслуживать запросы медленнее , чем другие, поэтому мы регистрируем имя сервера, к которому мы возвращаемся.

Вот выдержка из конфигурации apache одного сервера:

# We don't want to log bots, they're our friends
BrowserMatch Pingdom.com robot

# Custom log format, for testing
#
#         date          proto   ipaddr  status  time    req     referer         user-agent
LogFormat "%{%F %T}t    %p      %a      %>s     %D      %r      %{Referer}i     %{User-agent}i" standard
CustomLog /var/log/apache2/access.log standard env=!robot

Из этого нельзя сказать, что между каждым полем находится буквальный символ табуляции (\ t). Это означает, что если я хочу провести некоторый анализ в Python, например, показать не-200 статусов, я могу сделать это:

for line in file("access.log"):
  line = line.split("\t")
  if line[3] != "200":
    print line

Или, если бы я хотел сделать, «кто ссылки горячие ссылки?» это было бы

if line[6] in ("","-") and "/images" in line[5]:

Для количества IP-адресов в журнале доступа, предыдущий пример:

grep -o "[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}" logfile | sort -n | uniq -c | sort -n

становится примерно так:

cut -f 3 log | uniq -c | sort -n

Легче читать и понимать, и намного дешевле в вычислительном отношении (без регулярных выражений), что при 9 ГБ журналах имеет огромное значение в том, сколько времени это займет. Когда это становится ДЕЙСТВИТЕЛЬНО аккуратно, если вы хотите сделать то же самое для User-agent. Если ваши журналы разделены пробелами, вы должны выполнить некоторое сопоставление с регулярным выражением или поиск строки вручную. С этим форматом все просто:

cut -f 8 log | uniq -c | sort -n

Точно так же, как и выше. На самом деле, любое резюме, которое вы хотите сделать, по сути точно такое же.

С какой стати я трачу центральный процессор моей системы на awk и grep, когда cut делает то, что я хочу на порядок быстрее?

Дэн Удей
источник
2
Ваши примеры для нового формата на самом деле все еще слишком сложны - счетчики IP становятся cut -f 3 log | uniq -c | sort -nпользовательскими агентами cut -f 8 log | uniq -c | sort -n.
Creshal
Вы правы, это проще. Я обновил примеры, чтобы отразить это.
Дэн Удей
«cat file | grep string» бесполезен, почему бы не «grep string file»?
c4f4t0r
2
У меня нет оправданий, и я обновил пример соответственно.
Дэн Удей
15

Забудьте про awk и grep. Проверьте asql . Зачем писать нечитаемые сценарии, когда вы можете использовать sql-подобный синтаксис для запроса файла журнала. Например.

asql v0.6 - type 'help' for help.
asql> load /home/skx/hg/engaging/logs/access.log
Loading: /home/skx/hg/engaging/logs/access.log
sasql> select COUNT(id) FROM logs
46
asql> alias hits SELECT COUNT(id) FROM logs
ALIAS hits SELECT COUNT(id) FROM logs
asql> alias ips SELECT DISTINCT(source) FROM logs;
ALIAS ips SELECT DISTINCT(source) FROM logs;
asql> hits
46
asql> alias
ALIAS hits SELECT COUNT(id) FROM logs
ALIAS ips SELECT DISTINCT(source) FROM logs;
Виханг Д
источник
Интересно, но вы можете столкнуться с проблемами, если ваши журналы будут особенно большими, я думаю. Кроме того, насколько хорошо он справляется с пользовательскими форматами журналов?
Вагнерр
Я пытаюсь это в данный момент, время загрузки очень медленно (по крайней мере, в версии 0.9). Загрузка журнала размером 200 МБ занимает более пяти минут.
Aseques
Надо сказать, что после времени загрузки (это заняло около 15 минут) синтаксис этой программы великолепен, вы можете сортировать, считать и группировать по. Действительно мило.
Aseques
Apache HTTPD имеет метод, с помощью которого вы можете эффективно отправлять журналы в базу данных. Да, запись может занять много времени, но многопоточный прокси может сделать то, что нужно, в середине. В любом случае, это сделает запрос журналов в SQL-подобном синтаксисе намного быстрее. Также не требуется загрузка - сервер базы данных постоянно включен.
Nearora
6

Вот скрипт для поиска главных URL-адресов, лучших ссылок и лучших пользовательских агентов из последних N записей журнала

#!/bin/bash
# Usage
# ls-httpd type count
# Eg: 
# ls-httpd url 1000
# will find top URLs in the last 1000 access log entries
# ls-httpd ip 1000
# will find top IPs in the last 1000 access log entries
# ls-httpd agent 1000
# will find top user agents in the last 1000 access log entries

type=$1
length=$2

if [ "$3" == "" ]; then
  log_file="/var/log/httpd/example.com-access_log"
else
  log_file="$3"
fi

if [ "$type" = "ip" ]; then
  tail -n $length $log_file | grep -o "[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}" | sort -n | uniq -c | sort -n
elif [ "$type" = "agent" ]; then
  tail -n $length $log_file | awk -F\" '{print $6}'| sort -n | uniq -c | sort -n
elif [ "$type" = "url" ]; then
  tail -n $length $log_file | awk -F\" '{print $2}'| sort -n | uniq -c | sort -n
fi

Источник

anoopjohn
источник
4

для количества IP в журнале доступа:

cat log | grep -o "[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}" | sort -n | uniq -c | sort -n

Это немного некрасиво, но это работает. Я также использую следующее с netstat (чтобы увидеть активные соединения):

netstat -an | awk '{print $5}' | grep -o "[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}" | egrep -v "(`for i in \`ip addr | grep inet |grep eth0 | cut -d/ -f1 | awk '{print $2}'\`;do echo -n "$i|"| sed 's/\./\\\./g;';done`127\.|0\.0\.0)" | sort -n | uniq -c | sort -n

Они одни из моих любимых "лайнеров" :)

f4nt
источник
3

Составление списка общих вопросов было бы отличным показателем для ответов на этот вопрос. Мои общие вопросы:

  • почему изменился битрейт?
  • почему общее время отклика увеличивается?

Я замечаю такие изменения, отслеживая страницы состояния сервера (через mod_status) на предмет скорости обращения и приблизительного времени ответа для активных и недавно выполненных запросов (прекрасно понимая, что я пропускаю огромную кучу данных, но примеры достаточно хороши).

Я использую следующую директиву LogFormat (% T действительно полезен)

LogFormat "%h %l %u %t \"%r\" %>s %b 
    \"%{Referer}i\" \"%{User-Agent}i\" %T" custom

Я ищу причинно-следственную связь и то, что произошло сначала ... обычно о конкретных подмножествах шаблонов в моих журналах, поэтому мне нужно знать следующее для любого данного шаблона / регулярного выражения:

  • количество посещений за интервал (минуты или часы) для данного шаблона (IP-адрес или строка CGI или параметры и т. д.)
  • гистограммы приблизительного времени отклика (с использованием параметра% T)

Я обычно использую Perl, потому что в конце концов он становится достаточно сложным, чтобы быть полезным.


Примером, не относящимся к Perl, может быть быстрый удар в минуту для не-200 кодов состояния:

tail -9000 access_log | grep -v '" 200 ' | cut -d: -f2,3 | uniq -c

Да, я обманываю с этим grep, предполагая, что пробел-пробел-200-пробел совпадает только с http-кодами состояния .... может использовать awk или perl для изоляции поля, просто имейте в виду, что это может быть неточно.


Более сложным примером в Perl может быть визуализация изменения битрейта для шаблона.

В приведенном ниже сценарии есть что пережить, особенно если вы не знакомы с Perl.

  • читает stdin, так что вы можете использовать части ваших журналов, использовать tail (особенно с tail -f), с или без greps и другие фильтры ...
  • извлекает метки времени эпохи читов с помощью взлома регулярных выражений и использования Date :: Manip
  • Вы можете изменить его немного, чтобы извлечь время отклика или другие произвольные данные

код следует:

#!/usr/bin/perl
# script to show changes in hitrates for any regex pattern
# results displayed with arbitrary intervals
# and ascii indication of frequency
# gaps are also displayed properly
use Date::Manip;
use POSIX qw(strftime);
$pattern=shift || ".";
$ival=shift || 60;
$tick=shift || 10;
$minb=undef;
while (<>){
    next unless /$pattern/;
    $stamp="$1 $2" if m[(../.../....):(..:..:..)];
    $epoch = UnixDate(ParseDate($stamp),"%s");
    $bucket= int($epoch/$ival)*$ival;
    $minb=$bucket if $bucket<$minb || !defined($minb);
    $maxb=$bucket if $bucket>$maxb;
    $count{$bucket}++;
}
# loop thru the min/max range to expose any gaps
for($t=$minb;$t<=$maxb;$t+=$ival){
    printf "%s %s %4d %s\n",
            $t,
            strftime("%m/%d/%Y %H:%M:%S",localtime($t)),
            $count{$t}+0,
            substr("x"x100,0,$count{$t}/$tick
    );
}

Если вы просто хотите обработать стандартные метрики, оформите заказ

  • 'mergelog', чтобы собрать все ваши журналы (если у вас есть несколько apache за балансировщиком нагрузки) и
  • webalizer (или awstats или другой общий анализатор).
ericslaw
источник
3

Вот мой пример «sed», он читает формат логов apache по умолчанию и преобразует его в нечто более удобное для автоматической обработки. Вся строка определена как регулярное выражение, переменные сохраняются и записываются в вывод с «#» в качестве разделителя.

Упрощенная запись ввода:% s% s% s [% s] "% s"% s% s "% s" "% s"

Пример строки ввода: xx.xx.xx.xx - - [29 / Mar / 2011: 12: 33: 02 +0200] "GET /index.html HTTP / 1.0" 200 9443 "-" "Mozilla / 4.0"

Пример строки выходных данных: xx.xx.xx.xx # - # - # 29 / Mar / 2011: 12: 33: 02 + 0200 # GET /index.html HTTP / 1.0 # 200 # 9443 # - # Mozilla / 4.0

cat access.log | \ 
  sed 's/^\(.*\) \(.*\) \(.*\) \[\(.*\)\] \"\(.*\)\" \(.*\) \(.*\) \"\(.*\)\" \"\(.*\)\"$/\1#\2#\3#\4#\5#\6#\7#\8#\9/g'

Почувствуйте силу регулярных выражений :-)

Kris
источник
Это сделало обработку с AWK бризом. Искал быстрый способ настроить общий разделитель, и это прибило его.
Citricguy
Я почувствовал силу регулярных выражений и просто хотел передать мой собственный твик, который вырезает «HTML / 1.1» и разделяет протокол (вероятно, не в соответствии со стандартами) в свою собственную область. Наслаждайтесь: `` `cat access.log | sed 's /^(.*) (. *) (. *) [(. *)] \ "([[: alpha:]] \ +) (. *) HTTP \ / 1 \ .1 \" ( . *) (. *) \ "(. *) \" \ "(. *) \" $ / \ 1 # \ 2 # \ 3 # \ 4 # \ 5 # \ 6 # \ 7 # \ 8 # \ 9 # \ 10 / g '`` `
Джош Рамбут
2

Я часто использую awk, следя за файлом. Каждую ночь я доставляю себе веб-отчет для каждого сервера. В зависимости от вашего файла журнала и вашего LogFormat вам нужно отредактировать некоторые из этих лайнеров, чтобы они работали на вас.

Вот простой пример:

Если я хочу подключить журналы на моем сервере только для кодов состояния 404/500, я бы сделал это:

# $6 is the status code in my log file

tail -f ${APACHE_LOG} |  awk  '$8 ~ /(404|500)/ {print $6}'

<snip>

echo ""
#echo  "Hits by source IP:"
echo "======================================================================"

awk '{print $2}' "$1" | grep -ivE "(127.0.0.1|192.168.100.)" | sort | uniq -c | sort -rn | head -25

echo ""
echo ""
#echo "The 25 most popular pages:"
echo "======================================================================"

awk '{print $6}' "$1" | grep -ivE '(mod_status|favico|crossdomain|alive.txt)' | grep -ivE '(.gif|.jpg|.png)' | \
 sed 's/\/$//g' | sort | \
 uniq -c | sort -rn | head -25

echo ""    
echo ""
echo "The 25 most popular pages (no js or css):"
echo "======================================================================"

awk '{print $6}' "$1" | grep -ivE '(mod_status|favico|crossdomain|alive.txt)' | grep -ivE '(.gif|.jpg|.png|.js|.css)' | \
 sed 's/\/$//g' | sort | \
   uniq -c | sort -rn | head -25

   echo ""


#echo "The 25 most common referrer URLs:"
echo "======================================================================"

awk '{print $11}' "$1" | \
 grep -vE "(^"-"$|/www.$host|/$host)" | \
 sort | uniq -c | sort -rn | head -25

echo ""

#echo "Longest running requests"
echo "======================================================================"

awk  '{print $10,$6}' "$1" | grep -ivE '(.gif|.jpg|.png|.css|.js)'  | awk '{secs=0.000001*$1;req=$2;printf("%.2f minutes req time for %s\n", secs / 60,req )}' | sort -rn | head -50

exit 0

</ snip>

Майкл Штайнфельд
источник
2

Кто горячо связывает ваши изображения:

awk -F\" '($2 ~ /\.(jpg|gif)/ && $4 !~ /^http:\/\/www\.mydomain\.com/){print $4}' access_log | sort | uniq -c | sort
rkthkr
источник
1

В большинстве случаев я обычно читаю разделы журнала, основанные на времени, поэтому я написал следующий скрипт, используя sed для извлечения интересующего меня периода, он работает с каждым файлом журнала, который я получил. через и может обрабатывать архивированные журналы, а также.

#! / Bin / Баш
# Этот скрипт должен возвращать набор строк между 2 значениями, основная цель - поиск в файле журнала 2 раза
# Использование скрипта: logship.sh «start» «stop» file

# Если файл содержит любые символы "/" в диапазоне дат, в следующих 2 строках добавляется escape-символ, чтобы можно было выполнить поиск этих символов.
start = $ (echo "$ 1" | sed 's / \ // \\\ // g')
stop = $ (echo "$ 2" | sed 's / \ // \\\ // g')

zipped = $ (echo "$ 3" | grep -c "gz $") # определяет, был ли файл упакован в архив или нет

if ["$ zipped" == "1"]; затем # Если файл заархивирован, передайте его через zcat
        zcat $ 3 | sed -n "/ $ start /, / $ stop / p";
еще
        sed -n "/ $ start /, / $ stop / p" $ 3; # если он не застегнут, просто запустите sed
фи
Крис
источник
1

Хотя это и не sed или awk, есть две вещи, которые я нашел полезными для работы с файлами журналов apache и icecast.

AWStats имеет очень полезный скрипт logresolvemerge.pl , который объединяет несколько сжатых или несжатых файлов журнала, удаляет дубликаты и сортирует по отметке времени. Он также может выполнять поиск DNS и быть настроен для запуска многопоточных. Это особенно полезно при использовании с awstats, потому что awstats не может добавлять строки журнала с временными метками, которые старше текущей базы данных, поэтому все должны быть добавлены по порядку, но это очень просто, поскольку вы просто добавляете все в logresolvemerge.pl, и все это красиво появляется.

sed и awk довольно плохо справляются с датами, потому что они обычно воспринимают их как строки. У awk есть некоторые функции времени и даты, но их не так много. Например, извлечь диапазон строк между двумя временными метками сложно, если эти точные временные метки не встречаются в файле (даже если значения между ними есть) - пример Криса имеет именно эту проблему. Чтобы справиться с этим, я написал PHP-скрипт, который сообщает о диапазонах меток времени файла журнала, а также может извлекать порцию по диапазону меток времени, используя любой формат даты или времени, который вам нравится (он не должен совпадать с форматом метки времени файла журнала).

Чтобы сохранить это в теме, вот несколько полезных акизм: Получите общее количество байтов, обслуживаемых из журнала Apache или Icecast:

cat access.log | awk '{ sum += $10 } END { print sum }'

Получить общее количество секунд, подключенных из журнала Icecast:

cat access.log | awk '{ sum += $13 } END { print sum }'
Синхронная
источник
+1 для простого байт-суммирования apache log с awk
rymo
0

При восстановлении этого старого потока, после отказа от asql для больших файлов журналов, искал решение, которое также вызывало ошибку сервера. Я обнаружил, что здесь wtop - это инструмент с открытым исходным кодом, который способен выполнять мониторинг в реальном времени или журналы процессов и получать статистику (top N), очень гибкий и мощный, официальное место здесь

aseques
источник