Кто-то клонировал мой блог на WordPress, как я могу предотвратить причинение вреда SEO?

Мой блог на WordPress полностью клонирован. Этот сайт-клон обновляется в реальном времени с помощью моего блога. Я удивлен, что кто-то действительно может это сделать.

Что я должен сделать, чтобы остановить вредное влияние в моем рейтинге поисковых систем? Есть ли способ сказать Google не индексировать этот сайт?

wordpress scraper-sites Танвир Хасан
источник

Я вижу, что теперь это, кажется, "исправлено" - клонированный сайт больше не "клонируется". Как вы достигли этого в конце?

MrWhite

@ w3d После двух недель и нескольких разговоров с Amazon Hosting они решили закрыть этот клонированный сайт. Спасибо всем.

Танвир Хасан

обратите внимание, что dmca.com и google.com/webmasters/tools/dmca-dashboard различаются, когда пытаются заявить о нарушении.

Витрина изображений

Ответы:

Они просто загружают ваш сайт через серверный скрипт. Все, что вам нужно сделать, это заблокировать IP-адрес своего сервера через .htaccess. Просто откройте журналы доступа вашего сервера, откройте клонированную страницу на их сайте, затем просмотрите журнал для новой записи, и вы получите их IP-адрес.

Также не помешает отправить запрос DMCA в Google, но в этом нет необходимости, так как этот контент мгновенно исчезнет, как только вы заблокируете их IP-адрес.

Джон Конде
источник

Я собираюсь удвоить предложение сделать запрос DMCA в Google. В последнее время мы наблюдаем различные формы этого, и я просто не уверен, какой будет отдача. Однако я бы предложил не блокировать их на время, пока Google это делает, тогда я бы их заблокировал, но вам может и не понадобиться, когда Google удалит их из списка. Я просто предлагаю, чтобы, если вы подадите жалобу DMCA в Google, дайте им время для расследования, прежде чем блокировать. В противном случае просто заблокируйте их прямо сейчас.

closetnoc

Привет, Джон Конде, я пытался заблокировать блокировку их IP-адреса с помощью файла .htaccess с помощью этого кода "" Команда Запретить, Разрешить запретить с [этого IP-адреса] "Но этот сайт-клон все еще обновляется в реальном времени вместе с моим. правильный код, чтобы заблокировать этот ip?

Танвир Хасан

@TanvirHasan Это правильная идея, если у вас есть правильный IP-адрес. Этот IP-адрес все еще отображается в вашем журнале доступа, когда вы посещаете «клонированный сайт»?

MrWhite,

Мой хостинг-провайдер дал поместить эти команды в файл .htaccess, и именно они получают этот IP-адрес из журнала. Но это не работает.

Танвир Хасан

Это когда-нибудь было решено ??

closetnoc

(В дополнение к ответу @ Джона.)

Есть ли способ сказать Google не индексировать этот сайт?

Скорее любопытно, что, хотя они, кажется, клонировали все (включая ваши файлы сайта XML ^{* 1} ), они не клонировали ваш файл robots.txt. На самом деле robots.txt на этом сайте активно блокирует сканирование всего! Так что, похоже, ничего не поделаешь в этом отношении. Поиск по сайту в этом домене возвращает только пустой домен и уведомление о том, что он заблокирован robots.txt.

(Скорее любопытно, что они намерены сделать при этом? Возможно, вы могли бы просто предположить, что они допустили ошибку с robots.txt - и это может быть так - но это больше похоже на намеренное исключение для меня?)

Кроме того, хотя ваши XML-карты сайта клонированы, они не обновляют URL-адреса в них (как это происходит на главных страницах сайта), поэтому они по-прежнему указывают на ваш сайт.

^{* 1} Относительно карты сайта XML. На вашем сайте «sitemap.xml» фактически является перенаправлением на «sitemap_index.xml», и клонированный сайт фактически клонировал перенаправление ... которое перенаправляет обратно на ваш сайт! (Несомненно, ошибка с их стороны.) "Sitemap_index.xml" - это просто индекс, ссылающийся на 4 других файла Sitemap. Если какой-либо из этих фактических файлов Sitemap запрашивается непосредственно на клонированном сайте, они корректно клонируются и URL-адреса обновляются. Тем не менее, я бы сказал, что эти карты сайта вряд ли можно найти на клонированном сайте из-за первоначального перенаправления «sitemap.xml». (?) Хотя, если бы они отправили «sitemap_index.xml» напрямую, это, очевидно, обошло бы перенаправление.

MrWhite
источник

Я сделал запрос к карте сайта всего несколько минут назад, и с сайта спама на исходный сайт происходит перенаправление 301.

closetnoc

@closetnoc Ах, да! Я пропустил это раньше. "sitemap.xml" на самом деле также является перенаправлением на исходный сайт ... он перенаправляет на "sitemap_index.xml". Спам-сайт, кажется, клонирует это перенаправление, которое отправляет пользователя обратно на исходный сайт! Если вы запросите какой-либо из 4 файлов Sitemap, перечисленных в "sitemap_index.xml", непосредственно на сайте спама, то сайт спама правильно их клонирует, однако из-за первоначального перенаправления я думаю, что их будет трудно найти, если они не знают, что нужно отправить. «sitemap_index.xml» вместо «sitemap.xml». Я обновил ответ. Спасибо.

MrWhite

Если сайт генерирует обратные ссылки на вас, важно использовать инструмент Google Disavow, иначе алгоритм будет работать против вас, независимо от этого.

https://www.google.com/webmasters/tools/disavow-links-main

создать файл .txt и добавить:

domain:thedamnsitethatcloned.com

затем загрузите его в Google с помощью Инструментов для веб-мастеров.

Вот именно те шаги, которые я предприму для решения этой проблемы. Я знаю, что многие веб-мастера сталкиваются с этой проблемой. У меня была эта проблема раньше, и, кажется, нет прямого ответа на Google (по иронии судьбы) (именно поэтому я хочу помочь). Мэтт Каттс - чувак, которого вы должны слушать об этих проблемах, но слушать его - все равно что пытаться выиграть партию в шахматы против суперкомпьютера в горящем доме (никакой помощи не найти).

Короткие Cutts:

Зарегистрируйтесь в DMCA и разместите значок на своем сайте.
Соберите весь скопированный контент, вставив первые 60 слов с вашего веб-сайта в Google и добавив VIA https://www.google.com/webmasters/tools/dmca-dashboard. В запросах DMCA будут приниматься только постоянные ссылки.
Отключить КАЖДЫЙ сайт, который скопировал контент, ссылающийся на вас. Делайте это на каждой странице вашего сайта.

Мой первый ответ состоял в том, чтобы дезавуировать домен, но я забыл упомянуть, что вам нужно дезавуировать:

WWW. А ТАКЖЕ
не www.

(Google считает их двумя отдельными доменами).

Джон
источник