Шрифт:
Интервал:
Закладка:
□ проверку всех ссылок с помощью запросов url:http://www.site.ru/page/ и url:http://site.ru/page/, используя автоматический парсер ПС (программа A-Parser);
□ составление четырех списков:
■ всех проиндексированных важных страниц;
■ всех проиндексированных мусорных страниц;
■ всех непроиндексированных важных страниц;
■ всех непроиндексированных мусорных страниц.
Составление списка непроиндексированных страниц, посещенных роботом. В некоторых случаях после посещения роботом страница не попадает в индекс. Важно отличать такие страницы от тех, которые не в индексе и робот их не посещал, поскольку технология индексации таких страниц различается. Выполните следующие действия:
□ при помощи анализа логов составьте список страниц, которые посещал робот;
□ получите списки важных непроиндексированных страниц, не посещенных и посещенных роботом;
□ изучите список непроиндексированных страниц, которые не посещал робот ПС. На эти страницы необходимо привести робота, чтобы они попали в индекс;
□ изучите список непроиндексированных страниц, которые посетил робот ПС. Это страницы, которые имеют проблемы с дублями или статическим весом.
Проверка возможности индексации важных областей на Flash– и Ajax-сайтах. При продвижении творческих проектов важно изучить индексацию областей, при написании которых использовались технологии Flash, Ajax или другие, с индексацией которых могут возникнуть проблемы.
□ Необходимо по матрице сайта открыть текстовые сохраненные копии страниц всех типов и найти тексты, выложенные с помощью этих технологий. Если текст найти удалось – значит, блок индексируется.
□ В редких случаях даже при отсутствии Flash и Ajax на сайте может быть настолько «кривая» верстка, что текст не попадет в текстовый индекс.
Проверка возможности индексации всех страниц сайта при текущих инструкциях robots·txt. После корректировки robots.txt необходимо проверить, что все важные страницы доступны для индексации. Проверка осуществляется сервисом http://webmaster.yandex.ru/robots.xml.
Проверка целесообразности использования <noindex>, nofollow, meta noindex, meta nofollow, SEOHide. Ошибки в инструкциях индексации могут привести к выпадению важных страниц из индекса и существенным потерям трафика. Чтобы выявить эти ошибки, необходимо:
□ сделать проверку по матрице сайта (сервисы RDS-bar, «СайтРепорт»);
□ найти незакрытые <noindex>;
□ изучить, какие внутренние ссылки закрыты в nofollow;
□ изучить, какие внешние ссылки закрыты в nofollow;
□ изучить, какие страницы закрыты в meta noindex;
□ изучить, какие страницы закрыты в meta nofollow;
□ изучить, есть ли на сайте SEOHide и корректно ли он внедрен.
Проверка корректности использования <noindex>, nofollow, SEOHide. После составления списка страниц, на которых используются инструкции по скрытию индексации, необходимо изучить списки на предмет ошибок. Контрольные точки:
□ незакрытый <noindex>;
□ индексируемый SEOHide;
□ проверка корректности SEOHide с помощью плагина WebDeveloper;
□ важные страницы с meta nofollow, meta noindex;
□ nofollow на внутренних ссылках.
Поиск ошибок (сравнение индексов по категориям и типам страниц). Необходимо подробно изучить сайт на предмет наличия ошибок. Один из способов сделать это – сравнение списков проиндексированных в разных поисковых системах страниц по тем разделам и типам страниц, где их количество в индексе различается.
□ Изучаются области сайта, где в одной ПС страниц меньше, чем в другой (табл. 10.1).
□ Страницы из списка проиндексированных открываются и изучаются.
□ Изучаются те страницы, которые отсутствуют в индексе одной ПС, но есть в индексе другой.
□ Изучаются страницы, помеченные в Google как supplemental.
Таблица 10.1. Сравнение индексов
Поиск в индексе технических страниц. Далее приведены популярные типы технических страниц, которые рекомендуется закрывать от индексации, а также некоторые варианты идентификации их через оператор inurl:
□ файлы статистики – /*_openstat;
□ страницы контекстной рекламы или меток – /*from=adwords, /*utm_source=, /*utm_campaign=, /*utm_content=, /*utm_term=, /*utm_medium=;
□ корзина – /cart/, /order/;
□ страницы сортировки – /*sort, asc, desc, list=*;
□ страницы поиска – /search/;
□ страницы авторизации – /auth/;
□ версия для печати – /*printable, /print;
□ напоминание пароля – /remind_password/;
□ регистрация – /register/;
□ административный раздел – /administrator/;
□ кэш страниц – /cache/;
□ модули, подгружаемые на страницы, – /components/, /plugins/;
□ файлы инсталяции CMS – /installation/, /installer/;
□ логи – /logs/;
□ файлы – /files/;
□ скрипты, таблицы стилей – /ajax/, /java/, /ess/;
□ аккаунты пользователей – /user/ и др.
Анализ динамики индексации сайта. Динамика индексации сайта может указать на слабые места и проблемы проекта.
Статистика по списку проиндексированных страниц, собранных с параметром &how=tm, позволяет узнать возраст страниц и изучить динамику индексации сайта.
Проверка robots.txt на ошибки. Из-за ошибки в robots.txt весь сайт может быть исключен из индекса. Чтобы избежать этого, следует:
□ с помощью сервиса http://webmaster.yandex.ru/robots.xmL проверить, закрывает ли robots.txt все ненужные страницы и не находит ли валидатор ошибок;
□ проверить соответствие robots.txt правилам http://help.yandex.ru/webmaster/?id=996567.
Проверка robots.txt на наличие директив для всех поисковых систем. «Яндекс» и Google используют различные директивы в robots.txt, и инструкции для них следует писать разные. В robots.txt писать User-Agent: «Яндекс» + User-Agent: * обязательно, опционально писать еще User-Agent: Google.
Проверка sitemap.xml на ошибки. С помощью sitemap.xml можно управлять индексацией своего сайта. Для того чтобы поисковые системы доверяли рекомендациям и корректно обрабатывали их, необходимо исправить ошибки. Нужно проверить следующее:
□ ссылка на sitemap.xml должна быть в robots.txt;
□ атрибуты дат страниц расставлены корректно;
□ приоритеты расставлены правильно;
□ исключены уже проиндексированные страницы;
□ нет страниц, закрытых от индексации в robots.txt;
□ нет нарушений валидности составления sitemap.xml (сервис http://webmaster.yandex.ru/sitemaptest.xmL).
Дополнительная информация о sitemap.xml – на http://www.sitemaps.org/ru/faq.html#faq_xml_schema.
Дублирование, аффилиаты, ошибки
Анализ содержания поддоменов. На поддоменах может располагаться что угодно: копия сайта, спамный контент, вирусы. Например, на поддомене может располагаться архивная версия форума, которая уже не работает и поэтому не обновляется. Используя найденные ошибки в движке форума, которые не были исправлены, спамботы могут оставить на страницах форума ссылки на спамные ресурсы. Необходимо внимательно изучить содержание поддоменов до начала продвижения сайта.
Запрос к «Яндексу» вида rhost:ru.site* дает нам список страниц, расположенных на поддомене.
Получив список поддоменов, следует изучить их содержание через site:1.site.ru. Предмет изучения – поиск лишних доменов, уязвимостей, дублей, спамного и ошибочного контента.
Поиск дублирующих страниц. Необходимо найти все возможные дубли страниц сайта и перенастроить сервер таким образом, чтобы только одна страница главного зеркала была индексируемой. Порядок поиска:
□ сравнение по шинглам (сервис «СайтРепорт»);
□ сравнение Title (сервис «СайтРепорт», WebMaster Google, оператор intitle: в «Яндексе»);
□ проверка на наличие дублей:
■ www.site.ru и site.ru;
■ http:// и https://;
■ dir и dir/;
■ / и /index.php;
■ /cat/dir/ и /dir/cat/;
■ /cat/dir/id/ и /cat/id/;
■ panasonic/tv/ и param_1=12¶m_2=44;
■ param_1=12¶m_2=44 и /cat_12/dir_44/;
■ site.ru и test.site.ru;
■ test.site.ru и site.ru/test/;
■ /bedroom/divan_roza.html и /guestroom/divan_roza.html;
■ /?red_id=3342;
■ /session_id=442424424022492.
Поиск дублирующего контента. На сайте могут присутствовать частичные дубли. Такие страницы не только соревнуются между собой в релевантности по ключевым словам дублированного блока, но и могут терять релевантность по продвигаемым запросам за счет размывания текста. Способы решения проблемы:
□ сравнение по шинглам (сервис «СайтРепорт»);
□ ручной осмотр разных страниц сайта по матрице.
Поиск пустых страниц. На некоторых сайтах можно найти страницы с пустыми Title. При таком раскладе продвигаемые страницы теряют в релевантности, потому что содержимое Title имеет значительное влияние на ранжирование страницы. Нужно выполнить проверку:
□ по Title (сервис «СайтРепорт»);
□ по количеству контента и размеру страницы (часто пустые страницы и страницы с ошибками имеют проблемы в Title).
Поиск страниц с ошибками. Из-за ошибок CMS, базы данных, кодировки, верстки, скриптов и др. некоторые страницы могут отображаться с ошибками. Выполняется поиск:
□ вручную при сравнении индексов;
□ через поиск в тексте ключевых слов admin, SQL и т. п.;
□ с помощью анализа ошибок в логах;
□ с помощью анализа страниц с высоким процентом отказов.
Поиск циклических (бесконечных) страниц. Некоторые модули сайта могут создавать циклические страницы. Так, например, распространенный модуль календаря мероприятий позволяет создавать бесконечное количество страниц, углубляясь в даты до эпохи динозавров и еще дальше. Проверка выполняется:
- Интернет-разведка. Руководство к действию - Евгений Ющук - Интернет
- Монетизация сайта. Секреты больших денег в Интернете - Андрей Меркулов - Интернет
- Wi-Fi: Все, что Вы хотели знать, но боялись спросить - А. Щербаков - Интернет
- Рунетология. Кто управляет русским Интернетом? - Максим Спиридонов - Интернет
- Мозг онлайн. Человек в эпоху Интернета - Гэри Смолл - Интернет