На результаты выдачи влияет более 1000 факторов ранжирования, и мы не знаем их точных весовых коэффициентов, к тому же часть факторов — скрыты поисковой системой. Даже сотрудники Google, которые непосредственно работают над алгоритмами ранжирования, не могут объяснить почему тот или иной результат находится на одной из топовых позиций. Понимание структуры поисковой системы объясняет: почему иногда хорошо оптимизированные страницы не ранжируются, а короткие и/или малоинформативные страницы попадают в ТОП. Источником основной информации данной статье является материал: How Google Search ranking works
Новый документ, ожидающий визита Google бота
Когда вы запускаете новый сайт, его индексирование не происходит мгновенно. Google узнает о сайте через обновленную карту сайта или через ссылки, размещенные на уже известных страницах. Главная страница и другие популярные страницы часто быстрее привлекают внимание Google. Краулер извлекает новый контент, а планировщик управляет частотой его посещений, решая, когда вернуться для проверки обновлений.
Некоторые сайты, особенно те, что считаются спамными или малозначимыми, могут попасть в «песочницу», где они проходят дополнительные проверки. Частота обхода сайта зависит от его трафика: чем больше посещений, тем чаще сайт обрабатывается.
Система индексации Google — Alexandria
Система индексации Google (Alexandria) присваивает каждому документу уникальный DocID. Если контент уже существует (например, в случае дублированных страниц), новый ID не создается — URL связывается с существующим DocID.
Каждый фрагмент сайта индексируется по ключевым фразам, которые помещаются в прямой и обратный индексы. Например, наш условный документ — про карандаши. Слово «карандаш», часто встречающееся на странице, будет добавлено в обратный индекс с привязкой к соответствующему DocID, что увеличивает его значимость в поисковой выдаче.
Присвоение идентификаторов
Каждому документу присваивается:
- Генерируется автоматически при добавлении документа в систему. Обычно это длинная строка символов или чисел, например:
doc-98765a4b-cdef-1234-5678-90abcdef1234
- Описание документа: название, автор, язык, дата публикации
- Технические параметры: размер файла, формат, дата загрузки
- Категории и ключевые слова для тематической классификации
- Связь с другими документами
Каждому DocID присваивается алгоритмически рассчитанная оценка IR (information retrieval — этот показатель можно интерпретировать как меру тематической релевантности документа. Это количественная характеристика, которая помогает системе определить, насколько документ соответствует запросу и где он должен быть размещён в результатах поиска).
Кроме прочего, Google отслеживает последние изменения в документах, и если контент изменяется слишком сильно или резко, алгоритмы могут обнулить все старые сигналы. Документы и их версии сохраняются в репозитории, и с течением времени Google анализирует изменения. Чтобы изменить тему документа или обновить его, нужно пройти через несколько промежуточных версий, иначе старые сигналы останутся в системе.
Важно также отметить, что при изменении администратора и содержания домена одновременно, все старые SEO-сигналы обнуляются.
Механизм поиска и ранжирования QBST
Когда пользователь вводит запрос, к примеру, со словом «карандаш» в поисковой строке Google — начинается процесс его обработки в системе QBST.
QBST — механизм поиска и ранжирования на основе запросов
Процесс работы QBST:
Первичный анализ запроса
QBST анализирует текст запроса пользователя, чтобы понять его намерение (интент). Это позволяет Google выбирать между разными типами результатов. Интент уточняется дополнительными ключевыми словами или предыдущими действиями пользователя.
Простыми словами, Гугл хочет понять, что Вам показать, то есть, какого типа это должен быть контент: информационный, навигационный, коммерческий, транзакционный или развлекательный.
Связывание с индексом Google
После интерпретации запроса QBST взаимодействует с индексом Google. Задача — найти наиболее релевантные документы:
Ранжирование результатов
Система QBST использует сложные алгоритмы для сортировки результатов на основе таких факторов:
Обработка специальных запросов
QBST также поддерживает расширенные функции: голосовые запросы, картографические запросы, мультимедиа.
После этого, соответствующие термины (в нашем примере — «карандаш») передаются в систему Ascorer для дальнейшей обработки.
Ascorer: Создание “зеленого кольца”
Система Ascorer берет из обратного индекса 1000 самых релевантных документов (DocID) для запроса «карандаш» и сортирует их по IR-оценке. Этот список называют «зеленым кольцом» или posting list (списком публикаций).
Ascorer входит в систему ранжирования Mustang, которая дальше отбирает результаты. Она применяет такие методы, как:
- Удаление дубликатов с помощью SimHash (отпечатки документов)
- Анализ фрагментов текста
- Проверка оригинальности и полезности контента
Цель — выбрать 1000 кандидатов, которые потом оцениваются для попадания в топ-10 результатов, называемых «синим кольцом». На этом этапе наш документ о карандашах занимает условное 132-е место в списке публикаций. Если фильтрации больше не будет, это место останется финальным.
Superroot: Превратить 1000 в 10
Система Superroot занимается повторным ранжированием, выполняя точную работу по сокращению «зеленого кольца» (1000 DocID) до «синего кольца», которое включает всего 10 результатов. Для этой задачи используются Twiddlers и NavBoost. Возможно, задействованы и другие системы, но их точная роль остается неясной из-за недостатка информации.
Как работают Twiddlers?
Twiddlers – это специальные инструменты (подобные плагинам), которые помогают фильтровать и ранжировать документы в поисковой системе без необходимости менять сложные алгоритмы, такие как Ascorer. Их много, и каждый из них выполняет отдельную задачу, улучшая работу на разных этапах.
Принцип работы Twiddlers:
Некоторые Twiddlers меняют оценки релевантности документов (IR) , например, повышают новинки или разнообразие контента, а другие – двигают документы вверх или вниз в результатах поиска. Они экономят ресурсы системы и делают выдачу более полезной и релевантной.
Другие функции
Некоторые Twiddlers добавляют аннотации для улучшения отображения сниппетов (например, изображений или текста). Они также учитывают, что запросы могут быть разными (покупка, информация, навигация) и регулируют выдачу в зависимости от этого.
Оценщики качества Google и RankLab
Оценщики качества (эксперты, выполняющие ручную проверку релевантности и полезности результатов поиска на основе строгих протоколов Google) играют ключевую роль в косвенном влиянии на алгоритмы Google, помогая обучать системы машинного обучения. Хотя их оценки напрямую не влияют на ранжирование, они формируют критерии, по которым алгоритмы понимают, какие страницы заслуживают доверия и соответствуют ожиданиям пользователей.
Как это работает
- Явно ли указаны автор и дата публикации?
- Соответствует ли информация профессиональным знаниям?
- Ответы записываются и используются для обучения алгоритмов
- Алгоритмы изучают характеристики качественных страниц, выявляя ключевые признаки, такие как наличие фотографии автора, полного имени и ссылки на биографию LinkedIn
- Эти признаки могут затем стать сигналами ранжирования. Например, страницы с авторскими данными могут быть повышены в рейтинге, а их отсутствие — наоборот, обесценено
- Оценки экспертов собираются в показатель удовлетворенности информацией (IS)
- Если для страницы IS-показатель недоступен, система экстраполирует данные на основе похожих шаблонов
- Некоторые документы могут быть признаны эталоном качества («золотым стандартом»), что способствует их продвижению
- Такие документы могут получить поддержку Twiddlers, которые продвигают их в топовые позиции, например, в первую десятку
Влияние на ранжирование
- Twiddlers и нейронные сети
- После положительных тестов алгоритмы, опираясь на данные от оценщиков, интегрируют выявленные признаки через Twiddlers, влияя на ранжирование
- Это создает более точную настройку выдачи, учитывая не только структуру контента, но и репутацию авторов
- AuthorVectors и «отпечаток автора»
- Google может учитывать стиль письма автора, идентифицируя его через AuthorVectors, что усиливает значение авторского контента
- Эксперименты в RankLab
- Собственные эксперты Google разрабатывают и тестируют Twiddlers, оценивая их влияние на качество выдачи и эффективность в борьбе со спамом
- Только проверенные Twiddlers интегрируются в систему Mustang, отвечающую за финальную обработку результатов
Вывод
Чтобы повысить позиции в поисковой выдаче, стоит учитывать эти аспекты:
- Обеспечить прозрачность авторства, включая фото, имя и биографию.
- Сосредоточиться на создании контента, который может соответствовать «золотым» стандартам.
- Регулярно анализировать SERP и адаптировать стратегию в зависимости от выявленных изменений.
Чего хотят пользователи? Как NavBoost помогает ранжированию
NavBoost — это система Google, которая помогает управлять результатами поиска для мобильных, десктопных и локальных запросов. Хотя Google официально заявляет, что данные о кликах не влияют на ранжирование, внутренние документы говорят об обратном. Система действительно учитывает клики, время на сайте и поведение пользователя (например, данные из браузера Chrome), чтобы определить, какие страницы дают лучший пользовательский опыт.
Как работает NavBoost
- Данные о кликах и времени на сайте:
- Страницы, на которых пользователи проводят больше времени и которые становятся их последним кликом в поиске, считаются более релевантными
- Если у страницы низкий CTR (процент кликов по ссылке), она может потерять позиции. Высокий CTR и удовлетворенность пользователей наоборот повышают страницу в выдаче
- Анализ поведения:
- NavBoost использует данные о том, как пользователи взаимодействуют с результатами, чтобы предложить более качественные страницы
- Система минимизирует манипуляции с помощью алгоритмов сжатия данных и защиты от ботов
Как NavBoost помогает новым страницам
- Новым страницам временно передается вес главной страницы («NearestSeed»), пока они не наберут собственные сигналы, такие как клики, обратные ссылки или трафик
- Если новая страница показывает низкий CTR, она быстро теряет позиции, но если клики и вовлеченность высоки, то позиции растут
- Система адаптируется к изменениям, например, к сезонным запросам или новым пользовательским паттернам
Дополнительные факты
- Долгосрочный анализ: Google хранит метрики 13 месяцев, чтобы изучать тенденции
- Брендовые сигналы и трафик: Популярные страницы или те, которые упоминаются в брендовом контексте, быстрее попадают в топ выдачи
- Минимизация персонализации: Google старается показывать общие результаты, которые лучше предсказывают намерения пользователей, вместо слишком индивидуализированных
NavBoost помогает Google адаптировать выдачу в режиме реального времени, делая её более релевантной для пользователей и устойчивой к спаму.
GWS — место отображение результатов поиска
Google GWS (веб-сервер) собирает и отображает результаты поиска, включая органические ссылки, рекламу и дополнительные блоки. Tangram (система, отвечающая за расчёт: сколько места или вычислительных ресурсов требуется для определённых элементов) определяет, сколько места требуется каждому элементу выдачи, а Glue (это инструмент, предназначенный для соединения различных компонентов в единое целое) — размещает их на странице. Однако система CookBook (система адаптации выдачи к текущим пользовательским интересам), включая FreshnessNode (следит за актуальностью контента) и InstantNavBoost (меняет ранжирование на основе поведенческих факторов пользователя), может менять результаты в реальном времени.
Например, если выходит программа о Faber-Castell и мифах, окружающих слово «карандаш», FreshnessNode замечает всплеск запросов о «карандаше» и заменяет транзакционные результаты информационными. В такой ситуации наш документ, ориентированный на продажи, теряет позицию в поиске.
Это демонстрирует, что высокие позиции зависят не только от качественного контента и SEO, но и от поведения пользователей и новых сигналов. Система NavBoost может изменить ранжирование, если интересы пользователей меняются.
SEO работает в сложной экосистеме, где сигналы, такие как обратные ссылки или клики, постоянно пересчитываются. Даже временное падение позиций может быть связано с внешними факторами, а не ошибками. Когда всплеск интереса к теме утихнет, документ, вероятно, вернётся на своё место.
Чтобы удержаться в топе, важно сохранять высокий CTR. Например, для позиции 5 нормальный показатель CTR — около 4%. Это помогает закрепить результат в долгосрочной перспективе.