Год назад мы поставили перед собой цель — разработать самую большую базу данных обратных ссылок и обойти всех наших конкурентов.
На реализацию задачи ушло более 30 000 рабочих часов наших лучших инженеров и data-аналитиков, было задействовано более 500 серверов и выпито 16722 чашки чая.
И вот, когда цель достигнута, мы с нетерпением ждем обратной связи от наших клиентов!
Обновление инфраструктуры базы данных Backlink Analytics в цифрах:
- 18 месяцев работы;
- 30 000 часов инжиниринга экспертного уровня;
- Полный переход на новую архитектуру (с сохранением 43,8 трлн ссылок архивных данных);
- Более 500 серверов;
- 16128 ядер CPU;
- 245 Tb памяти, используемой для оперативных вычислений;
- 13,9 Pb данных для хранения базы данных ссылок;
- 16 722 чашки кофе.
Более подробно узнать о проделанной работе, вы можете, прочитав пост в блоге на английском языке.
Мы хотим рассказать вам о нововведениях, продемонстрировать преимущества обновленной базы данных и описать проблемы, которые нам пришлось решить на пути к обновлению.
Благодаря увеличению системы хранения данных и утроенному количеству краулеров, наша база данных имеет возможность находить, индексировать ссылки и увеличивать массив данных.
База данных SEMRush Backlinks Analytics в цифрах
- Более 43 трлн обратных ссылок;
- Более 1,6 млрд ссылающихся доменов;
- И 25 трлн ежедневно обновляемых ссылок.
И это только начало! Система будет развиваться и улучшать показатели!
Принципы работы базы данных обратных ссылок Semrush
До того как мы подробно разберем, что именно было усовершенствовано, давайте вспомним основные принципы работы базы данных Semrush.
- Сначала мы составляем список страниц для краулинга.
- Затем наши краулеры анализируют эти страницы и сохраняют полученную информацию.
- Следующий шаг — запись, хранение данных и предоставление их для пользователей Semrush.
В новом варианте базы данных мы фактически упразднили этап временного хранилища, добавили в три раза больше краулеров, и внедрили набор фильтров перед формированием очереди, благодаря чему весь процесс краулинга стал быстрее и эффективнее.
Как работает база данных обратных ссылок Semrush
Если раньше мы анализировали все ссылки, то сейчас система предварительно фильтрует и отбирает странички для кроулинга.
Некоторые страницы необходимо кроулить чаще, другие не нужно кроулить совсем. Новый фильтр определяет порядок обработки.
Теперь система выделяет уникальный контент и сайты с высокой степенью доверия, а также определяет линкофермы.
Качество работы системы значительно улучшилось и релевантность выводимой информации значительно повысилась.
Новые принципы работы системы:
Для защиты нашего списка ожидания от линкоферм мы проверяем связь доменов с IP-адресами. Если мы видим слишком много доменов с одним IP-адресом, их приоритет в списке снижается, что позволяет нам обработать больше доменов с разных IP-адресов и не увязнуть в линкофермах.
Чтобы защитить сайты и избежать загромождения наших отчетов одинаковыми ссылками, мы проверяем, не приходит ли слишком много ссылок с одного и того же домена.
Чтобы убедиться, что мы оперативно сканируем новые страницы, каждому ранее необработанному URL присваивается приоритет.
Каждая страница имеет свой хэш-код, который помогает ставить уникальный контент в приоритет для краулинга.
Частота создания новых ссылок на странице-источнике также принимается во внимание.
Мы учитываем Authority Score страницы и домена.
Обновление функций и принципов фильтрации страниц
10+ различных параметров, позволяющих отфильтровывать ненужные ссылки.
Новые алгоритмы контроля качества.
Краулеры
Наши краулеры следуют по внутренним и внешним ссылкам в поисках новых страниц. Таким образом пополняется база данных.
Проводя ревизию нашей старой системы, мы увидели возможность увеличить краулинговый потенциал.
Что мы предприняли?
Мы утроили количество краулеров с 10 до 30.
Мы прекратили сканировать страницы, параметры URL которых не влияют на контент страницы (&sessionid;, UTM, etc.).
Мы повысили частоту чтения и следования инструкциям файлов robots.txt на сайтах.
Новшества краулинга
Больше краулеров (сейчас 30)
Чистые данные без «мусора» и дублирующихся ссылок
Улучшенный поиск релевантного контента
Скорость краулинга 25 млрд страниц в день
Теперь мы добавляем ссылки в течение 15 минут после появления их в сети.
Хранилище
Хранилище – это место, где мы собираем все ссылки, которые вы можете увидеть, будучи пользователем Semrush. Этот сервис показывает вам ссылки в интерфейсе инструмента и предлагает фильтры, с помощью которых вы можете указать параметры поиска.
Главная проблема старой системы хранения ссылок заключалась в том, что каждые две недели база заполнялась и перезаписывала данные.
Обновление базы значительно замедляло работу системы.
Что мы предприняли?
Мы переписали всю архитектуру хранилища с нуля. Количество серверов было увеличено более чем в 4 раза.
Внедрение новых технологий заняло 30 000 рабочих часов наших инженеров.
Теперь у нас есть масштабируемая система, у которой нет и не будет ограничений по скорости.
Новшества хранилища
- 500+ серверов;
- 287 TB оперативной памяти;
- 16128 ядер CPU;
- Супер-быстрая фильтрация и генерация отчетов;
- Регулярное обновление базы без участия временного хранилища.
Анализ баз данных обратных ссылок
Мы провели сравнительное исследование скорости нашего инструмента Backlink Analytics с Moz, Ahrefs, и Majestic.
Чтобы увидеть, насколько быстрее работает наш сервис в сравнении с другими сервисами для SEO, рекомендуем прочитать этот пост в блоге на английском языке.
Мы гордимся нашей новой разработкой и хотим, чтобы все смогли оценить ее возможности. Получите свободный доступ к системе, заведя бесплатный аккаунт Semrush, и сервис Backlink Analytics будет для вас доступен.
Добро пожаловать в будущее динамического управления обратными ссылками!
0 Responses to Semrush Backlinks Update 2021