Как отличить спам от качественного контента

Seomoz собрал признаки, по которым можно определить спамерский домен, в один большой список. Вот он:

  • Длинные имена доменов
  • .info, .cc, .us и другие дешевые с простой регистрацией доменные зоны
  • Маленький срок регистрации домена (1, реже 2 года)
  • Большое количество блоков рекламы относительно контента
  • Javascript редирект на некоторых страницах
  • Использование сильно коммерческих кивордов типа "mortgage," "poker," "texas hold ’em," "porn," "student credit cards" и подобных
  • Множество ссылок на другие сайты столь же низкого качества
  • Мало ссылок на качественные трастовые сайты
  • Высокая плотность и частота кивордов
  • Мало уникального контента
  • Мало непоискового трафика
  • Домен зарегистрирован на людей/организации, не связанные с трастовыми сайтами
  • Не часто регистрируются в сервисах типа  Yahoo! Site Explorer, Google Webmaster Central или Live Webmaster Tools
  • Редко имеют короткие тематические имена доменов
  • Часто содержат множество субдоменов с кивордами в именах
  • Часто содержат множество дефисов в именах доменов
  • Редко имеют SSL сертификаты
  • Редко зарегистрированы в категориях типа DMOZ, Yahoo!, Librarian’s Internet Index и подобных
  • Редко имеют существенное количество поисков по имени сайта
  • Редко попадает в закладки на сервисах типа  My Yahoo!, Del.icio.us, Faves.com и подобных
  • Редко упоминается (и главное редко получает голоса) на социалках типа Digg, Reddit, Yahoo! Buzz, StumbleUpon и подобных
  • Вряд ли у них есть каналы на YouTube, сообщества в Facebook или ссылки с Wikipedia
  • Вряд ли упоминаются на крупных новостных сайтах
  • Вряд ли зарегистрированы в Google/Yahoo!/MSN Local Services
  • Редко имееют реальных почтовый адрес и телефон на сайте
  • Часто имеют имя домена, связанное с е-мейлами из блеклистов
  • Контент часто неоригинальный
  • Вряд ли содержат уникальный контент в форматах PDF, PPT, XLS, DOC
  • Часто ориентированы исключительно на коммерческий контент
  • Редко содержат страницы с копирайтами и прайваси
  • Редко цитируется на других сайтах
  • Клоакинг по user-agent или IP
  • Вряд ли запускают онлайновые или оффлайновые рекламные кампании
  • Редко на них ссылаются через реферальскую ссылку
  • Редко размещаются в доменных зонах .com и .org
  • Практически никогда не размещаются в доменных зонах .mil, .edu или .gov
  • Редко на них ссылаются с сайтов в доменных зонах .edu или .gov
  • И практически никогда не ссылаются на них с сайтов в доменной зоне .mil
  • Редко имеют высокую посещаемость
  • Крайне редко пользователи задерживаются на таких сайтах больше 30 секунд
  • Вряд ли покупают трафик на ППЦ
  • Редко покупают баннерную рекламу
  • Совершенно нереально, чтобы их упомянули или сослались на них в научных статьях
  • Редко создаются на платных движках
  • Часто зарегистрированы на реквизиты, на которые зарегистрировано огромное количество доменов
  • Редко получают ощутимый трафик от повторных визитов
  • Есть вероятность,что на них будут вирусы, спайваре и т.п.

Для сайтов с качественным контентом справедливо обратное.

Читать в оригинале (там чуть больше пунктов): Separating Web Spam from Quality Content – What are the Metrics?


Опубликовано

в

от