Я извлекаю URL-адреса с веб-сайта, используя cURL, как показано ниже.
curl www.somesite.com | grep "<a href=.*title=" > new.txt
Мой новый файл .txt, как показано ниже.
<a href="http://website1.com" title="something">
<a href="http://website1.com" information="something" title="something">
<a href="http://website2.com" title="some_other_thing">
<a href="http://website2.com" information="something" title="something">
<a href="http://websitenotneeded.com" title="something NOTNEEDED">
Однако мне нужно извлечь только приведенную ниже информацию.
<a href="http://website1.com" title="something">
<a href="http://website2.com" information="something" title="something">
Я пытаюсь игнорировать те, <a href
которые имеют информацию в них и чей заголовок заканчивается NOTNEEDED .
Как я могу изменить свое утверждение grep?
curl www.somesite.com | grep "<a href=.*title=" | grep -v NOTNEEDED > new.txt
?Ответы:
Я не полностью следую вашему примеру + описанию, но звучит так, как вы хотите:
Итак, для вашего примера:
источник
Страница руководства grep гласит:
Вы можете использовать регулярные выражения для нескольких инверсий:
или
источник