июля 17, 2007
Google палит темы
Что такое индексация?
Dan начал свою презентацию с обсуждения, что значит “индексация” и как она производится Google’ом. В общих чертах, процесс индексации для для паука Google выглядит так: сначала робот смотрит файл robots.txt, чтобы узнать, куда ему не нужно идти, и далее проходит по разрешенным страницам. Прочитав страницу, паук находит содержащуюся на ней релевантную информацию. Потом робот проходит по каждой ссылке и повторяет процесс.
Растолкованный Robots.txt
Dan продолжил объяснять как использовать файл robots.txt для исключения страниц и директорий вашего сайта из очереди на индексацию, например папку cgi-bin. Он рассказал нам, что все основные поисковые системы имеют свои собственные команды для этого файла, но все поисковики работают над стандартизацией этих команд в недалеком будущем.
По поводу вопроса, чему паук уделяет больше внимания, он сказал, что есть более 200 факторов сканирования, при этом “релевантность” играет большую роль в большинстве из них.
Google все еще любит свой PageRank
Dan также обсудил важность PageRank‘а (настоящего, который знает только Google, а не тулбарного PR, которым только детей пугать). Он дал нам знать, что высококачественные входящие ссылки все еще один из самых важных факторов в плане индексации и ранжирования, и потом он продолжил объяснять, что создание сайта с уникальным контентом для пользователей - один из лучших способов достигнуть успеха. Он объяснил, как создание комьюнити единомышленников, постоянно повышающих популярность вашего сайта, приводит его к успеху.
Не спать. Теперь начнется кое-что интересное
Знали ли вы об этих тегах?
Нам также рассказали о некоторых примочках, о которых многие люди не знают ничего. Например, знали ли вы, что используя тег “nosnippet” вы можете сделать так, чтобы Google перестал показывать сниппет вашей страницы в выдаче поисковой системы? Также вы можете сделать так, чтобы Google перестал показывать кэш-версию страницы, используя тег “noarchive“? Dan не рекомендует использовать эти теги, поскольку сниппеты очень полезны для посетителей, также как и показ кэша. Как бы то ни было, Google понимает, что существуют такие обстоятельства, когда вы можете захотеть выключить эти опции.
Для справки: сниппет (snippet) - текст (могут быть и картинки), который в выдаче идет после ссылки на страницу. Это может быть текст из тега description или из тела документа, часто та область, где встречаются ключевые слова.
Полезные теги. Как сразу видно дорвей в выдаче? Правильно, в сниппете перемешаны ключевые слова… Прячем сниппет - и на наши доры идут даже умники… и абуз поменьше станет. может быть
Ссылка на синтаксис по новым тегам: контроль кэша и сниппета в Google. В двух словах, это просто новые мета-теги. А вот еще информация.
Потрясающие новости!
Google представил новый тег, названный “unavailable_after“, который позволит человеку сказать Google, когда конкретная страница будет более не доступна для индексации. Например, если вы имеете специальное предложение на вашем сайте, срок действия которого заканчивается к определенной дате, вы возможно захотите использовать тег “unavailable_after“, чтобы сообщить Google, когда перестать ее индексировать. Или возможно вы пишете статьи, которые бесплатны до какого-то момента, но потом переходят в платную область подписки вашего сайта. Тег unavailable_after для вас! Хорошая штука.
Инструменты для вебмастеров
Dan никак не мог наговориться, когда перечислял достоинства Webmaster Central tools. Я должен сказать, что это характерно для всех докладов Google, которые я слышал на различных конференциях. Самое главное - то, что они не шутят! Если вы еще не использовали инструменты для вебмастеров, вам следует это сделать, потому что они дают вам тонну информации о вашем сайте, например обратные ссылки, ключевые фразы, по которым люди находят ваш сайт, и многое, многое другое!
Растолкованные Sitemaps
Один из главных инструментов центра вебмастеров - это возможность предоставить Google карту сайта в формате XML. Dan сказал нам, что Google sitemap может быть использована, чтобы рассказать Google об адресах страниц, которые иначе будут недоступны из-за того, что не связаны ссылками с кем-либо еще. Он использовал термин “огороженный сад” (walled garden), чтобы описать множество перелинкованных (связанных ссылками) страниц, но на которые нет ссылок откуда-либо извне. Он сказал, что вы можете просто засабмитить адрес хотя бы одной из этих страниц в карту сайта (sitemap), и она приведет паука на все остальные страницы. Также он говорил о том, как удобно использовать sitemap для индексации страниц, которые могут быть доступны только через веб-формы (зачем их индексировать? что-то толковых вариантов в голову не приходит…). Позже он отметил, что хотя эти страницы и будут проиндексированы через sitemap, они все равно будут считаться страницами низкого качества, пока не наберут хоть какой-нибудь PageRank. Как бы то ни было, Google работает над тем, чтобы изменить такую ситуацию в будущем.
Flash и Ajax
В завершение, Dan заметил, что Google до сих пор не очень хорошо индексирует контент, содержащий Flash и/или Ajax. Он сказал, что следует ограничить эти технологии при организации контента, который должен быть проиндексирован. Он предоставил немного информации по поводу Scalable Inman Flash Replacement (sIFR), и объяснил, что если использовать sIFR по тому назначению, для которого он был создан, то производимый контент будет наилучшим вариантом для Google. (Дизайнеры, вперед!) Dan сказал, что Google надеется, что в скором времени индексация страниц, содержащих Flash, будет проходить более успешно.
Ужасные Supplemental Results
Конечно, одним из вопросов, которые не могли не задать, был вопрос о supplemental results, о том, что к ним приводит и как из них выйти. (Это вообще один из самых главных вопросов, которые я слышал на SEO/SEM конференциях). Dan рассказал нам о том, что такое supplemental results и как можно убрать оттуда различные URLы. Он объяснил, что по замыслу supplemental index - это индекс, в который попадают страницы с низким PageRank‘ом (настоящим) или те, которые редко обновляются. Эти страницы показываются в результатах поиска Google, только если в основном индексе не найдено достаточно релевантных вариантов. Есть хорошие новости: Google начинает сканировать supplemental index более часто, сводя на нет различие в скорости сканирования supplemental index и основного индекса. К тому же, чтобы вернуть ваши URLы в основной индекс, он посоветовал получить больше входящих ссылок ( Значит оригинальность контента тут ни при чем…).