Seomoz собрал признаки, по которым можно определить спамерский домен, в один большой список. Вот он:
- Длинные имена доменов
- .info, .cc, .us и другие дешевые с простой регистрацией доменные зоны
- Маленький срок регистрации домена (1, реже 2 года)
- Большое количество блоков рекламы относительно контента
- Javascript редирект на некоторых страницах
- Использование сильно коммерческих кивордов типа "mortgage," "poker," "texas hold ’em," "porn," "student credit cards" и подобных
- Множество ссылок на другие сайты столь же низкого качества
- Мало ссылок на качественные трастовые сайты
- Высокая плотность и частота кивордов
- Мало уникального контента
- Мало непоискового трафика
- Домен зарегистрирован на людей/организации, не связанные с трастовыми сайтами
- Не часто регистрируются в сервисах типа Yahoo! Site Explorer, Google Webmaster Central или Live Webmaster Tools
- Редко имеют короткие тематические имена доменов
- Часто содержат множество субдоменов с кивордами в именах
- Часто содержат множество дефисов в именах доменов
- Редко имеют SSL сертификаты
- Редко зарегистрированы в категориях типа DMOZ, Yahoo!, Librarian’s Internet Index и подобных
- Редко имеют существенное количество поисков по имени сайта
- Редко попадает в закладки на сервисах типа My Yahoo!, Del.icio.us, Faves.com и подобных
- Редко упоминается (и главное редко получает голоса) на социалках типа Digg, Reddit, Yahoo! Buzz, StumbleUpon и подобных
- Вряд ли у них есть каналы на YouTube, сообщества в Facebook или ссылки с Wikipedia
- Вряд ли упоминаются на крупных новостных сайтах
- Вряд ли зарегистрированы в Google/Yahoo!/MSN Local Services
- Редко имееют реальных почтовый адрес и телефон на сайте
- Часто имеют имя домена, связанное с е-мейлами из блеклистов
- Контент часто неоригинальный
- Вряд ли содержат уникальный контент в форматах PDF, PPT, XLS, DOC
- Часто ориентированы исключительно на коммерческий контент
- Редко содержат страницы с копирайтами и прайваси
- Редко цитируется на других сайтах
- Клоакинг по user-agent или IP
- Вряд ли запускают онлайновые или оффлайновые рекламные кампании
- Редко на них ссылаются через реферальскую ссылку
- Редко размещаются в доменных зонах .com и .org
- Практически никогда не размещаются в доменных зонах .mil, .edu или .gov
- Редко на них ссылаются с сайтов в доменных зонах .edu или .gov
- И практически никогда не ссылаются на них с сайтов в доменной зоне .mil
- Редко имеют высокую посещаемость
- Крайне редко пользователи задерживаются на таких сайтах больше 30 секунд
- Вряд ли покупают трафик на ППЦ
- Редко покупают баннерную рекламу
- Совершенно нереально, чтобы их упомянули или сослались на них в научных статьях
- Редко создаются на платных движках
- Часто зарегистрированы на реквизиты, на которые зарегистрировано огромное количество доменов
- Редко получают ощутимый трафик от повторных визитов
- Есть вероятность,что на них будут вирусы, спайваре и т.п.
Для сайтов с качественным контентом справедливо обратное.
Читать в оригинале (там чуть больше пунктов): Separating Web Spam from Quality Content – What are the Metrics?