Другой веб-сайт является зеркальным отображением и находится над моим сайтом в результатах поиска.

55

Есть сайт с дурной репутацией, известный как thedirty, который полностью отразил мой сайт, и теперь в Google на этой странице появляются ссылки, использующие мой контент. Я проверил свои лог-файлы и заметил, что этот сайт уже некоторое время сканирует мой, а также имеет 10000 ссылок с их сайта на мой.

Я заблокировал доступ пользователей, на который ссылается этот сайт, и уже сообщил о них как о веб-спаме в Google. Я также дезавуировал домен.

Как они получают лучшие ссылки в Google (даже обгоняя мои) для такой гнусной тактики? Какие шаги для полного устранения такой проблемы, как эта?

ОБНОВЛЕНИЕ 28/28/2014:

Я думал, что предоставлю обновленную информацию по этому вопросу, поскольку у меня есть больше информации сейчас. Таким образом, грязные указали свои субдомены на мой ip, что привело к тому, что их субдомены стали похожи на мой сайт.

В течение нескольких дней это не имело большого значения, потому что, используя htaccess, я перенаправлял все HOSTS не из моего домена обратно в свой домен, что в основном означало, что я получаю ссылки на трафик их поддоменов в Google. Через пару дней thedirty изменили свои субдомены, чтобы указать на свой сайт, чтобы я больше не получал от этого выгоду.

Таким образом, весь смысл в том, что они использовали мой контент, чтобы получить высшие звания в Google, и теперь направляют эти ссылки обратно на свой сайт, чтобы привлечь больше трафика к своим.

Это грязная тактика грязного сайта. Я надеюсь, что Google наказывает такое поведение.

Мальборо Гудлак
источник
3
Я отредактировал ту часть, где вы ставите под сомнение их мотивы, так как это здесь не по теме. Но хороший вопрос в противном случае.
Джон Конде
1
Клонирование веб-сайтов кажется новым трюком, в настоящее время многие веб-сайты используются неправильно. На Heise (немецкий) есть новости на эту тему. Обычное решение (помимо сообщения о поддельном сайте), по-видимому, заключается в том, чтобы передавать специальный контент IP-адресам сканеров, чтобы они, например, показывали ссылку на ваш реальный сайт.
martinstoeckli
1
Еще одна проблема на будущее - теперь, когда Google заняла столь жесткую позицию по отношению к веб-спаму, - это то, что конкуренты намеренно размещают мой контент на сайтах с плохой репутацией, чтобы нанести ущерб моей репутации. Или будут публиковать блоги со спамом, указывающие на мой сайт без моего ведома.
Мальборо Гудлак
3
@ Джаррод Роберсон: не совсем, кто-нибудь знает о судебном иске, но сколько из технического решения ?!
Machineaddict
1
@JarrodRoberson Тем не менее, это проблема, с которой сталкиваются исключительно веб-мастера, и поэтому он очень актуален для этого сайта, потому что, задавая его здесь, вы получите ответы от людей, которые также имели дело с ним. Также кажется, что люди представили несколько технических решений наряду с легальными.
благодаря

Ответы:

45

Если они просто отражают ваш сайт, передавая ваш сайт через прокси-скрипт или отрыгивая ваш HTML-вербатум, вы можете добавить канонические URL-адреса на свои страницы. Это позволит Google знать, что ваш контент является исходным источником, и показывать ваш URL в результатах поиска, а не их.

Отправьте запрос DMCA в Google. Они немного медлительны с ними, но в конечном итоге они удаляют эти страницы из своего индекса.

Отказ от ссылок - это разумный шаг.

Я не знаю, полезно ли блокирование пользователей. Возможно, разместив сообщение в верхней части ваших страниц, чтобы они знали, что вы - оригинальный сайт, а другой - мошенничество, может быть лучшим решением.

Джон Конде
источник
2
Канонические URL не всегда помогают. Скрипт, отражающий мой сайт, изменил канонические URL-адреса, чтобы они указывали также на поддельный сайт; так что это было бессмысленно.
CaptainCodeman
28

Вы можете подать жалобу DMCA и, если вы находитесь в США, вы можете подать иск об авторском гражданском праве.

Вот ссылка на короткий ответ, который объясняет, как жалоба DMCA может помочь любому:

Вы должны быть в Соединенных Штатах, чтобы подать жалобу DMCA?

... и еще один объясняет больше ...

Какую часть вашего контента необходимо скопировать, прежде чем вы сможете подать жалобу DMCA?

Если вы находитесь в США, вы можете нанять адвоката, который знаком с вопросами авторского права, и попросить его отправить письмо о прекращении и отказе от участия. Дайте им 10 дней (реальные дни, а не рабочие дни, хотя рабочие дни тоже подойдут) для удаления контента. Вы хотите делать моментальные снимки сайта, на котором совершено оскорбление, а также улики и снимки вашего сайта. Если вы проверяете, была ли удалена страница, проверьте сайт напрямую, а не результаты поиска.

Если страница не была удалена в течение определенного периода времени, вы можете подать федеральное гражданское дело, для защиты которого потребуется не менее 10 000 долларов США, и вряд ли это вам что-то будет стоить. Вы будете на месте водителя. Вполне вероятно, что урегулирование может быть достигнуто по крайней мере 10 000 долларов США и, возможно, больше. Вы можете вернуть свои расходы тоже. Что важно, так это предложить бесплатный вариант решения проблемы, отсюда и письмо о прекращении и воздержании. После этого вы можете подать иск без ответственности перед ответчиком.

Еще одно замечание: вам нужно будет продемонстрировать ущерб, если вы обратитесь в суд. Потеря поискового трафика - это убытки. Здесь вы будете работать со своим адвокатом для сбора показателей, которые иллюстрируют потерю трафика, и вам нужно будет монетизировать значение этого трафика. Конечно, вы можете предполагать более высокие цифры здесь даже с коэффициентом конверсии 100%. На всякий случай, я буду собирать показатели потери трафика с помощью Google Analytics и вашего программного обеспечения для анализа файлов журналов сегодня и в будущем.

Пожалуйста, знайте, что регистрация дела не сложная или очень дорогая, особенно по сравнению с убытками, которые вы испытываете сейчас и в будущем. Нарушения авторского права в последнее время снижаются, но те немногие, кто нарушает авторские права, в наши дни гораздо смелее. Мы должны остановить этих людей, и единственный реальный способ - это включить фактор стоимости в бизнес-стратегию, которая делает нарушение авторских прав неприбыльным.

closetnoc
источник
2
Вся проблема, которую вы обходите стороной, заключается в том, что выяснить, кто стоит за сайтом, практически невозможно. Я имею в виду, что они должны быть идиотами, чтобы было проще отследить сайт до реального человека.
Дэвид Малдер
1
@DavidMulder Нет обхода. Адвокат может вызвать компании в суд за необходимую им информацию. Даже доброе письмо достаточно. Если информация не предоставлена, то адвокат может потребовать показания в суде перед судьей со штрафом в виде тюремного заключения, если он не явился, или предоставить запрошенную информацию. В США нет законного сокрытия - гражданского или иного. Это все еще работает на международном уровне с некоторым исключением.
closetnoc
@closetnoc: Компания, возможно, не захочет предоставлять информацию свободно или даже может делать это. Нет уверенности в том, что суд выдаст повестку в суд или что след будет оставаться в его юрисдикции. Вы можете оказаться в очень дорогостоящем и длительном судебном процессе с третьей стороной, которая может даже не знать настоящего имени нарушителя. Судя по вашему тщательному ответу, вы, несомненно, знаете об этих препятствиях, но я должен встать на сторону Дэвида Малдера: я думаю, вы недооцениваете, насколько сложно отследить сайт до человека.
отмечает Томас
@closetnoc: Да, кроме того, что у хостинг-провайдера нет правильной информации. И платеж, вероятно, был сделан с помощью предоплаченной кредитной карты или какой-либо другой предоплаченной карты, украденной кредитной карты, биткойнов или какого-либо другого механизма отслеживания, не поддающегося отслеживанию. Да, и хостинг-провайдер может вообще не быть в США. Это называется интернет, нравится вам это или нет.
Дэвид Малдер
@DavidMulder Я ценю то, что вы говорите. Я занимаюсь вопросами безопасности, особенно в области исследований о том, как найти плохих парней. В основном то, о чем вы говорите, будет китайский, русский или польский. Тем не менее, есть способы определить, кто эти люди с помощью шаблонов и тому подобное. Они отдают себя. Это именно то, что я делаю. Ты должен попробовать. Вы не можете просто перевернуться. Хороший интернет-юрист знает таких людей, как я и как получить информацию. Одна нить - это все, что мне нужно, и я обычно ее получаю. Но это может быть реальным усилием. Но это худший сценарий.
closetnoc
27

Вы можете отслеживать их IP-адреса (или IP-адреса) и возвращать для зеркала совершенно другой контент - что угодно. Таким образом, вы получаете бесплатное место для рекламы, и вы можете использовать их высокое положение в Google в своих интересах.

Однажды я использовал это, чтобы просто объяснить пользователям на зеркальном веб-сайте, что это неправильный домен. Вы также можете опубликовать простой заголовок перенаправления HTTP.

Игорь Р
источник
8
Я действительно нахожу это довольно забавным по какой-то причине. +1
Мердад
1
они, вероятно, не будут клонировать HTTP-заголовки, но вы можете отправить им анимацию javascript и забавные баннеры в стиле Marquee, кричащие «это грабеж» и старые добрые анимированные GIF-изображения: P
Флориан Фида,
также можно использовать мета-теги и перенаправления javascript, один из трех будет работать почти наверняка. в любом случае, это не является стабильным решением и будет работать только до тех пор, пока они не обнаружат и не начнут работать против него. @Mehrdad, я думаю, что это смешно, потому что это смешно :)
Igor R
это также показалось мне забавным, потому что злоумышленник фактически открывает уязвимость для себя, позволяя жертве попасть на свою (атакующую) площадку, даже если он может остановить ее в любое время. что заставляет нападавшего выглядеть довольно глупо.
Игорь Р
Их высокое положение в Google заменяет высокое положение исходного сайта, поэтому это не совсем «бесплатная реклама».
CaptainCodeman
12

Немного поздно для вас, но лучшая идея для защиты вашего сайта (в будущем) будет такой: https://www.youtube.com/watch?v=I3pNLB3Cq24 (defcon 21, защита по номерам), подделав код возврата, чтобы пользователи будет видеть контент, но боты будут

  • выбросить содержимое
  • ползти по кругу
  • прекратить работу

другие возможные идеи - убедитесь, что ваши пользователи не видят ничего из этого:

  • пусть они сохраняют ГБ информации (пока на вашем сервере всего несколько КБ)
  • заставить ботов заливать свою память фейковыми ссылками
  • отправлять фальшивый контент (100% boolsh * t - вам нужно писать такие вещи, как "Обама беременна", "Человек-паук 5 - следующим летом", ... чтобы ваши воры могли принять его ...)
  • отправлять поддельные файлы (например, 42.zip, если они не проверяют скопированный контент, их пользователи будут веселиться -> AV-инструменты покажут, что что-то не так -> пользователи будут p * ss * d ...)
  • дайте им подождать больше данных (размер файла = 1-10 МБ и отправьте случайное значение cr * p с 1 байт / с или менее)

другие идеи:

  • ссылки, защищенные Javascript (старые, больше не нужны? но если они останутся без изменений, пользователи будут отправлены вам (на некоторое время))
  • динамический мусор (используйте комментарии или невидимые элементы, чтобы заставить ботов загружать то, что пользователи не видят - хорошие боты не подойдут для этого)
  • Блокировка IP-адресов говорит о том, что загружается слишком много / слишком быстро / неправильно (боты не ведут себя как люди 1) каждая ссылка на каждой странице 2) в шаблоне или общем хаосе в выборе следующей ссылки (ссылок))
  • используйте Javascript для перенаправления на ваш сервер, если файлы не размещены на вашем сервере (никакой помощи против кражи нет, но воры должны удалить его, или их пользователи не останутся на своей странице - вы можете закодировать его в разные подпрограммы (например, расшифровка контента) ))
MurksVomOrk
источник
У меня есть свой собственный код, который мне все еще нужно настроить, чтобы блокировать пауков. Я буду изучать ваши идеи, потому что я такой парень! ;-) Отличные советы!
closetnoc
4
Проблема с блокировкой пауков и ботов заключается в том, что вы, вероятно, не хотите, чтобы все они были заблокированы. Например, Google очень важен, если вы хотите, чтобы люди могли найти ваш сайт. (И поскольку Google имеет ваш сайт в своем кеше, сканеру на самом деле не нужно сканировать ваш сайт, чтобы дублировать его).
trlkly
Если вы намеренно предлагаете им что-то альтернативное - я предпочитаю , чтобы ответ Игоря сделал это полезным для вас (перенаправьте / скажем, что это неправильно / разместите рекламу), а не отбивайтесь.
OJFord
2

Это называется Google Proxy Hack, и это случилось со мной тоже.

Перво-наперво:

  • Подать жалобу DMCA на веб-хостинг. Воспользуйтесь этой ссылкой, чтобы создать правильно сформированную жалобу и отправить ее по электронной почте в службу поддержки или злоупотребления. Если хост находится в США, они должны закрыть сайт. Даже если они не базируются в США, они могут в любом случае закрыть сайт. (Это случилось со мной однажды.)
  • Используйте инструмент Google DMCA, чтобы запросить удаление зеркальных URL из результатов поиска.
  • Используйте Google Scraper Report, чтобы сообщить об ошибке в алгоритме Google.

По сути, это провал со стороны Google. Несмотря на то, что они говорят о том, что рейтинг основан на «качественном оригинальном контенте», это нелепо простой контрпример, который, откровенно говоря, просто смущает.

Надеемся, что если на это пожалуется достаточное количество людей, в конечном итоге Google соберет свои силы и напишет 10 строк кода, необходимых для проверки того, что сайт является точным зеркалом ранее созданного сайта.

Также имейте в виду, что использование канонических URL-адресов не всегда работает в этом случае. Многие из этих прокси-скриптов изменяют канонические URL-адреса, чтобы они указывали на зеркальный сайт, что делает их бесполезными.

Наконец, имейте в виду, что они могли также спамить ваш основной сайт мусорными ссылками, чтобы нанести ущерб вашему рейтингу. (Это случилось и со мной.)

Если вы занимаетесь поиском и креативным мышлением, есть несколько способов дать отпор. Я действительно не думаю, что это хорошая идея опубликовать полный список здесь, потому что это просто облегчает жизнь хакерам.

CaptainCodeman
источник
1

Как и другие, упомянутое, подача жалобы DMCA и иск гражданского права авторского права могут быть лучшими вариантами.

Для нового контента, который вы публикуете, вы можете рассмотреть возможность уведомления об обновлениях вашего сайта в социальных сетях (Twitter, Facebook и т. Д.), Как только вы публикуете. Отметка времени, записанная там, может быть достоверным индикатором, который вы написали первым, если вам нужно доказать это. С помощью Инструментов Google для веб-мастеров вы можете активировать настройку, чтобы робот Googlebot часто сканировал ваш сайт . Предполагая, что популярные поисковые системы регулярно индексируют ваши веб-страницы (воспользуйтесь оператором сайта site: example.com, чтобы узнать), дата в кэшированной копии может быть использована как приблизительный показатель того, когда контент был опубликован.

Также для нового контента, который вы публикуете, вы можете встраивать водяные знаки в изображения и размещать комментарии в файлах JS, указывая, что вы являетесь первоначальным владельцем этих файлов.

mvark
источник
Если есть бот, копирующий контент, он мог бы просто включить информацию об авторстве на страницу, чтобы скопированный контент содержал что-то вроде «Это было создано Foo, все права защищены», что дает действительно четкое объяснение (вы можете, например, скрыть что в acrostic, но будучи ботом, он будет работать в виде простого текста, и сделает ваш случай сильнее).
Анхель