Я ищу способ взять все ссылки, которые я проиндексировал Google, и экспортировать их в файл CSV. Недавно у меня было гораздо больше страниц, проиндексированных Google, чем на самом деле, и я хочу выяснить, откуда все эти страницы, без просмотра каждой страницы результатов поиска.
seo
google
search-results
подветренный
источник
источник
Ответы:
К сожалению, нет никакого способа получить полный список каждой проиндексированной страницы в Google. Даже решение milo5b даст вам не более 1000 URL.
Похоже, у вас есть проблемы с дублированием контента. В разделе «Инструменты для веб-мастеров» выберите «Здоровье»> «Статус индекса», и он покажет совокупное количество страниц, проиндексированных с течением времени. Если график совершает большой скачок в какой-то момент, вы можете быть в состоянии сработать, если конкретное изменение на вашем сайте вызвало скачок.
Вы также можете попробовать использовать инструменты Bing для веб-мастеров . У них есть Index Explorer, который может помочь вам найти URL-адреса. Пауки поисковых систем очень похожи, поэтому, если Google нашел эти ссылки, Bing, вероятно, тоже.
Я думал, что у Bing есть способ экспортировать большую часть своих данных, но я не могу найти их беглым взглядом. Хотя есть API, так что вы можете использовать его для извлечения всего.
источник
В результате поиска по проблемной подпапке я начал искать сайт: domain.com/foo/bar/, но в процессе поиска я наткнулся на метод получения результатов поиска в файл Excel.
Откройте таблицу Google Docs и используйте эту формулу:
Он получит только первые 100 результатов, но вы можете использовать его снова, чтобы получить следующие 100. Просто измените переменную start:
Это даст только до 1000 результатов, как упоминалось ранее в DisgruntledGoat, но формулу можно изменить, чтобы предоставить ссылки из определенных подкаталогов:
источник
Вы можете написать скрипт, который анализирует выдачу Google SERP (например, PHP + Curl) и сохранять каждую ссылку в файле CSV. Будьте осторожны, чтобы ваш скрипт вел себя как человек, потому что Google может заблокировать ваш IP в результатах поиска на несколько часов, если вы злоупотребите этим.
источник