Я пишу краулер на Ruby (1.9), который потребляет много HTML с множества случайных сайтов. При попытке извлечь ссылки я решил просто использовать .scan(/href="(.*?)"/i)вместо nokogiri / hpricot (значительное ускорение). Проблема в том, что теперь я получаю много " invalid byte sequence in UTF-8"...