Самый быстрый инструмент Backlinks Analitics

Как мы создали новый инструмент обратных ссылок

Год назад мы поставили перед собой цель - разработать самую большую базу данных обратных ссылок и обойти всех наших конкурентов. 
На реализацию задачи ушло более 30 000 рабочих часов наших лучших инженеров и data-аналитиков, было задействовано более 500 серверов и выпито 16722 чашки чая.
И вот, когда цель достигнута, мы с нетерпением ждем обратной связи от наших клиентов! 

Обновление инфраструктуры базы данных Backlink Analytics в цифрах:

  • 18 месяцев работы;
  • 30 000 часов инжиниринга экспертного уровня;
  • Полный переход на новую архитектуру (с сохранением 43,8 трлн ссылок архивных данных);
  • Более 500 серверов;
  • 16128 ядер CPU;
  • 245 Tb памяти, используемой для оперативных вычислений;
  • 13,9 Pb данных для хранения базы данных ссылок;
  • 16 722 чашки кофе.


Более подробно узнать о проделанной работе, вы можете, прочитав пост в блоге на английском языке.


Мы хотим рассказать вам о нововведениях, продемонстрировать преимущества обновленной базы данных и описать проблемы, которые нам пришлось решить на пути к обновлению.

Благодаря увеличению системы хранения данных и утроенному количеству краулеров, наша база данных имеет возможность находить, индексировать ссылки и увеличивать массив данных.

База данных SEMRush Backlinks Analytics в цифрах

  • Более 43 трлн обратных ссылок;
  • Более 1,6 млрд ссылающихся доменов; 
  • И 25 трлн ежедневно обновляемых ссылок.

И это только начало! Система будет развиваться и улучшать показатели!  

Принципы работы базы данных обратных ссылок Semrush 

До того как мы подробно разберем, что именно было усовершенствовано, давайте вспомним основные принципы работы базы данных Semrush.

  • Сначала мы составляем список страниц для краулинга.
  • Затем наши краулеры анализируют эти страницы и сохраняют полученную информацию.
  • Следующий шаг - запись, хранение данных и предоставление их для пользователей Semrush.

В новом варианте базы данных мы фактически упразднили этап временного хранилища, добавили в три раза больше краулеров, и внедрили набор фильтров перед формированием очереди, благодаря чему весь процесс краулинга стал быстрее и эффективнее.

Как работает база данных обратных ссылок Semrush

Если раньше мы анализировали все ссылки, то сейчас система предварительно фильтрует и отбирает странички для кроулинга.

Некоторые страницы необходимо кроулить чаще, другие не нужно кроулить совсем. Новый фильтр определяет порядок обработки.

Теперь система выделяет уникальный контент и сайты с высокой степенью доверия, а также определяет линкофермы.

Качество работы системы значительно улучшилось и релевантность выводимой информации значительно повысилась.


Новые принципы работы системы:

Для защиты нашего списка ожидания от линкоферм мы проверяем связь доменов с IP-адресами. Если мы видим слишком много доменов с одним IP-адресом, их приоритет в списке снижается, что позволяет нам обработать больше доменов с разных IP-адресов и не увязнуть в линкофермах.

Чтобы защитить сайты и избежать загромождения наших отчетов одинаковыми ссылками, мы проверяем, не приходит ли слишком много ссылок с одного и того же домена.

Чтобы убедиться, что мы оперативно сканируем новые страницы, каждому ранее необработанному URL присваивается приоритет.

Каждая страница имеет свой хэш-код, который помогает ставить уникальный контент в приоритет для краулинга.

Частота создания новых ссылок на странице-источнике также принимается во внимание.

Мы учитываем Authority Score страницы и домена.


Обновление функций и принципов фильтрации страниц

10+ различных параметров, позволяющих отфильтровывать ненужные ссылки.

Новые алгоритмы контроля качества.

Краулеры

Наши краулеры следуют по внутренним и внешним ссылкам в поисках новых страниц. Таким образом пополняется база данных.

Проводя ревизию нашей старой системы, мы увидели возможность увеличить краулинговый потенциал.


Что мы предприняли?

Мы утроили количество краулеров с 10 до 30.

Мы прекратили сканировать страницы, параметры URL которых не влияют на контент страницы (&sessionid, UTM, etc.).

Мы повысили частоту чтения и следования инструкциям файлов robots.txt на сайтах.


Новшества краулинга

Больше краулеров (сейчас 30)

Чистые данные без «мусора» и дублирующихся ссылок

Улучшенный поиск релевантного контента

Скорость краулинга 25 млрд страниц в день

Теперь мы добавляем ссылки в течение 15 минут после появления их в сети. 

Хранилище

Хранилище – это место, где мы собираем все ссылки, которые вы можете увидеть, будучи пользователем Semrush. Этот сервис показывает вам ссылки в интерфейсе инструмента и предлагает фильтры, с помощью которых вы можете указать параметры поиска.

Главная проблема старой системы хранения ссылок заключалась в том, что каждые две недели база заполнялась и перезаписывала данные. 

Обновление базы значительно замедляло работу системы.


Что мы предприняли?

Мы переписали всю архитектуру хранилища с нуля. Количество серверов было увеличено более чем в 4 раза.

Внедрение новых технологий заняло 30 000 рабочих часов наших инженеров. 

Теперь у нас есть масштабируемая система, у которой нет и не будет ограничений по скорости.


Новшества хранилища

  • 500+ серверов;
  • 287 TB оперативной памяти;
  • 16128 ядер CPU;
  • Супер-быстрая фильтрация и генерация отчетов;
  • Регулярное обновление базы без участия временного хранилища.

Анализ баз данных обратных ссылок

Мы провели сравнительное исследование скорости нашего инструмента Backlink Analytics с Moz, Ahrefs, и Majestic.

Чтобы увидеть, насколько быстрее работает наш сервис в сравнении с другими сервисами для SEO, рекомендуем прочитать этот пост в блоге на английском языке. 

Мы гордимся нашей новой разработкой и хотим, чтобы все смогли оценить ее возможности. Получите свободный доступ к системе, заведя бесплатный аккаунт Semrush, и сервис Backlink Analytics будет для вас доступен.

Добро пожаловать в будущее динамического управления обратными ссылками!

Евгений Левин (Eugene Levin)

Главный специалист по стратегии и корпоративному развитию с марта 2016 года.

До прихода в SEMRush работал директором в сфере инвестиций в Target Global с марта 2016 по март 2017, а ранее, а с ноября 2014 по март 2016, был партнером.

С сентября 2013 по ноябрь 2014 был соучредителем и главой отдела маркетинга в AggroStudios.

Евгений также был партнером в Foresight Ventures и работал Старшим системным аналитиком в Cloudmach Inc.


Ольга Мамаева (Olga V. Mamaeva)

Перевод статьи
mamaeva.ov@gmail.com