Яндекс открыл исходный код платформы для работы с большими данными

Яндекс опубликовал исходный код YTsaurus. Это платформа для хранения и обработки больших данных, с которой работает большинство сервисов Яндекса.

Платформа подходит для широкого круга задач, от аналитики до обучения сложных моделей с миллиардами параметров. Например, Поиск строит с помощью YTsaurus поисковый индекс, а беспилотные автомобили используют платформу, чтобы обрабатывать данные о поездках и улучшать свои алгоритмы. YTsaurus управляет суперкомпьютерами Яндекса, распределяя нагрузку так, чтобы их вычислительные мощности использовались наиболее эффективно.

Максим Бабенко, руководитель отдела технологий распределенных вычислений:

Яндекс ведет разработку YTsaurus – или YT, как мы называем ее внутри – с 2010 года. Мы начали строить собственную экосистему для больших данных, потому что ни одно из имевшихся на рынке решений не удовлетворяло всем нашим требованиям. Сейчас YTsaurus – один из ключевых элементов внутренней инфраструктуры Яндекса. Над платформой работают десятки разработчиков, и ее возможности постоянно расширяются.

YTsaurus – отказоустойчивая и легко масштабируемая платформа. В Яндексе она развернута на десятках тысяч серверов и обрабатывает экзабайты данных; с ней работает каждый второй сотрудник компании. YTsaurus можно использовать как классическую MapReduce-систему, но при этом она поддерживает и другие популярные подходы к обработке данных. Например, у нее есть интеграции с ClickHouse и Apache Spark. Подробнее о возможностях YTsaurus рассказывается в блоге Яндекса на «Хабре».

Алексей Башкеев, руководитель Yandex Cloud:

Наибольшую пользу YTsaurus может принести крупным компаниям, которые обрабатывают гигантские объемы данных на тысячах серверов в условиях постоянно возрастающей нагрузки.

Исходный код и документация YTsaurus доступны на GitHub. Код распространяется под лицензией Apache 2.0. Использовать платформу или доработать ее под себя может любой желающий.

Источник: пресс-релиз Яндекса