Semrush Backlinks Update 2021

Нет комментариев
Как мы создали новый инструмент обратных ссылок

Год назад мы поставили перед собой цель — разработать самую большую базу данных обратных ссылок и обойти всех наших конкурентов.
На реализацию задачи ушло более 30 000 рабочих часов наших лучших инженеров и data-аналитиков, было задействовано более 500 серверов и выпито 16722 чашки чая.
И вот, когда цель достигнута, мы с нетерпением ждем обратной связи от наших клиентов!

11_Montazhnaya_oblast_1_kopiya_1x

Обновление инфраструктуры базы данных Backlink Analytics в цифрах:

  • 18 месяцев работы;
  • 30 000 часов инжиниринга экспертного уровня;
  • Полный переход на новую архитектуру (с сохранением 43,8 трлн ссылок архивных данных);
  • Более 500 серверов;
  • 16128 ядер CPU;
  • 245 Tb памяти, используемой для оперативных вычислений;
  • 13,9 Pb данных для хранения базы данных ссылок;
  • 16 722 чашки кофе.

Более подробно узнать о проделанной работе, вы можете, прочитав пост в блоге на английском языке.

Мы хотим рассказать вам о нововведениях, продемонстрировать преимущества обновленной базы данных и описать проблемы, которые нам пришлось решить на пути к обновлению.

Благодаря увеличению системы хранения данных и утроенному количеству краулеров, наша база данных имеет возможность находить, индексировать ссылки и увеличивать массив данных.

11_Montazhnaya_oblast_1_kopiya_2_1x

База данных SEMRush Backlinks Analytics в цифрах

  • Более 43 трлн обратных ссылок;
  • Более 1,6 млрд ссылающихся доменов;
  • И 25 трлн ежедневно обновляемых ссылок.

И это только начало! Система будет развиваться и улучшать показатели!

Принципы работы базы данных обратных ссылок Semrush

До того как мы подробно разберем, что именно было усовершенствовано, давайте вспомним основные принципы работы базы данных Semrush.

  • Сначала мы составляем список страниц для краулинга.
  • Затем наши краулеры анализируют эти страницы и сохраняют полученную информацию.
  • Следующий шаг — запись, хранение данных и предоставление их для пользователей Semrush.

В новом варианте базы данных мы фактически упразднили этап временного хранилища, добавили в три раза больше краулеров, и внедрили набор фильтров перед формированием очереди, благодаря чему весь процесс краулинга стал быстрее и эффективнее.

11_Montazhnaya_oblast_1_1x

Как работает база данных обратных ссылок Semrush

Если раньше мы анализировали все ссылки, то сейчас система предварительно фильтрует и отбирает странички для кроулинга.

Некоторые страницы необходимо кроулить чаще, другие не нужно кроулить совсем. Новый фильтр определяет порядок обработки.

Теперь система выделяет уникальный контент и сайты с высокой степенью доверия, а также определяет линкофермы.

Качество работы системы значительно улучшилось и релевантность выводимой информации значительно повысилась.

Новые принципы работы системы:

Для защиты нашего списка ожидания от линкоферм мы проверяем связь доменов с IP-адресами. Если мы видим слишком много доменов с одним IP-адресом, их приоритет в списке снижается, что позволяет нам обработать больше доменов с разных IP-адресов и не увязнуть в линкофермах.

Чтобы защитить сайты и избежать загромождения наших отчетов одинаковыми ссылками, мы проверяем, не приходит ли слишком много ссылок с одного и того же домена.

Чтобы убедиться, что мы оперативно сканируем новые страницы, каждому ранее необработанному URL присваивается приоритет.

Каждая страница имеет свой хэш-код, который помогает ставить уникальный контент в приоритет для краулинга.

Частота создания новых ссылок на странице-источнике также принимается во внимание.

Мы учитываем Authority Score страницы и домена.

Обновление функций и принципов фильтрации страниц

10+ различных параметров, позволяющих отфильтровывать ненужные ссылки.

Новые алгоритмы контроля качества.

Краулеры

Наши краулеры следуют по внутренним и внешним ссылкам в поисках новых страниц. Таким образом пополняется база данных.

Проводя ревизию нашей старой системы, мы увидели возможность увеличить краулинговый потенциал.

Что мы предприняли?

Мы утроили количество краулеров с 10 до 30.

Мы прекратили сканировать страницы, параметры URL которых не влияют на контент страницы (&sessionid;, UTM, etc.).

Мы повысили частоту чтения и следования инструкциям файлов robots.txt на сайтах.

Новшества краулинга

Больше краулеров (сейчас 30)

Чистые данные без «мусора» и дублирующихся ссылок

Улучшенный поиск релевантного контента

Скорость краулинга 25 млрд страниц в день

Теперь мы добавляем ссылки в течение 15 минут после появления их в сети.

Хранилище

Хранилище – это место, где мы собираем все ссылки, которые вы можете увидеть, будучи пользователем Semrush. Этот сервис показывает вам ссылки в интерфейсе инструмента и предлагает фильтры, с помощью которых вы можете указать параметры поиска.

Главная проблема старой системы хранения ссылок заключалась в том, что каждые две недели база заполнялась и перезаписывала данные.

Обновление базы значительно замедляло работу системы.

Что мы предприняли?

Мы переписали всю архитектуру хранилища с нуля. Количество серверов было увеличено более чем в 4 раза.

Внедрение новых технологий заняло 30 000 рабочих часов наших инженеров.

Теперь у нас есть масштабируемая система, у которой нет и не будет ограничений по скорости.

Новшества хранилища

  • 500+ серверов;
  • 287 TB оперативной памяти;
  • 16128 ядер CPU;
  • Супер-быстрая фильтрация и генерация отчетов;
  • Регулярное обновление базы без участия временного хранилища.

Анализ баз данных обратных ссылок

Мы провели сравнительное исследование скорости нашего инструмента Backlink Analytics с Moz, Ahrefs, и Majestic.

Чтобы увидеть, насколько быстрее работает наш сервис в сравнении с другими сервисами для SEO, рекомендуем прочитать этот пост в блоге на английском языке.

Мы гордимся нашей новой разработкой и хотим, чтобы все смогли оценить ее возможности. Получите свободный доступ к системе, заведя бесплатный аккаунт Semrush, и сервис Backlink Analytics будет для вас доступен.

Добро пожаловать в будущее динамического управления обратными ссылками!

About us and this blog

We are a digital marketing company with a focus on helping our customers achieve great results across several key areas.

Request a free quote

We offer professional SEO services that help websites increase their organic search score drastically in order to compete for the highest rankings even when it comes to highly competitive keywords.

Subscribe to our newsletter!

More from our blog

See all posts

Оставить комментарий