Как получить список всех проиндексированных ссылок?

8

Я ищу способ взять все ссылки, которые я проиндексировал Google, и экспортировать их в файл CSV. Недавно у меня было гораздо больше страниц, проиндексированных Google, чем на самом деле, и я хочу выяснить, откуда все эти страницы, без просмотра каждой страницы результатов поиска.

подветренный
источник
Откуда вы взяли количество проиндексированных страниц?
MrWhite
Google для веб-мастеров и поисковый сайт: domain.com
Lee
2
Единственное, что я хотел бы сказать, это то, что данные, представленные в Инструментах для веб-мастеров (Здоровье> Индексный статус> Всего проиндексировано), будут более точными, чем данные, полученные при поиске по сайту: domain.com. Сайт: поиск всегда возвращает гораздо более высокую цифру в моем опыте, но если вы пройдете через SERPs, фактическое число результатов будет меньше, чем показатель «О результатах NNNN».
MrWhite
Ну, эта страница была причиной, почему я заинтересовался этим в первую очередь. За 3 месяца количество проиндексированных страниц возросло с 27 000 до 567 000, и я хочу знать, почему.
Ли

Ответы:

6

К сожалению, нет никакого способа получить полный список каждой проиндексированной страницы в Google. Даже решение milo5b даст вам не более 1000 URL.

Похоже, у вас есть проблемы с дублированием контента. В разделе «Инструменты для веб-мастеров» выберите «Здоровье»> «Статус индекса», и он покажет совокупное количество страниц, проиндексированных с течением времени. Если график совершает большой скачок в какой-то момент, вы можете быть в состоянии сработать, если конкретное изменение на вашем сайте вызвало скачок.

Вы также можете попробовать использовать инструменты Bing для веб-мастеров . У них есть Index Explorer, который может помочь вам найти URL-адреса. Пауки поисковых систем очень похожи, поэтому, если Google нашел эти ссылки, Bing, вероятно, тоже.

Я думал, что у Bing есть способ экспортировать большую часть своих данных, но я не могу найти их беглым взглядом. Хотя есть API, так что вы можете использовать его для извлечения всего.

DisgruntledGoat
источник
Спасибо за предложение Bing, но они проиндексировали только 9000 страниц, и я уверен, что это не те ссылки, которые мне были нужны.
Ли
8

В результате поиска по проблемной подпапке я начал искать сайт: domain.com/foo/bar/, но в процессе поиска я наткнулся на метод получения результатов поиска в файл Excel.

Откройте таблицу Google Docs и используйте эту формулу:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=1"; "//cite")

Он получит только первые 100 результатов, но вы можете использовать его снова, чтобы получить следующие 100. Просто измените переменную start:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=100"; "//cite")

Это даст только до 1000 результатов, как упоминалось ранее в DisgruntledGoat, но формулу можно изменить, чтобы предоставить ссылки из определенных подкаталогов:

= importXml ("www.google.com/search?q=site:domain.com/foo/bar/&num=100&start=1"; "// cite")

подветренный
источник
Отличный совет с Google Docs. Просто интересно, какова на самом деле проблема с дополнительными проиндексированными страницами - это дублированный контент?
MrWhite
1
Я проследил это до vBulletin, программного обеспечения форума, которое мы используем. Они добавили новую функцию под названием поток активности и добавили в раздел пользователей. Таким образом, каждый пользователь будет иметь не только страницы своей активности в своем профиле, но и всю активность каждого своего друга. На вершине Google индексировались пустые страницы активности, потому что vBulletin не возвращал 404. Я закончил тем, что не проиндексировал весь раздел.
Ли
importXML корректно работает только со старыми Sheets, которые можно активировать по этой ссылке: g.co/oldsheets
i.amniels
2

Вы можете написать скрипт, который анализирует выдачу Google SERP (например, PHP + Curl) и сохранять каждую ссылку в файле CSV. Будьте осторожны, чтобы ваш скрипт вел себя как человек, потому что Google может заблокировать ваш IP в результатах поиска на несколько часов, если вы злоупотребите этим.

milo5b
источник