Доработка платформы данных

06.09.2024 12:39

Есть платформа, размещенная на Яндекс Облаке. Данные с парсеров прилетают в через Kafka Connector в топики и сохраняются на диск S3. Дальше данные забираются по триггеру Spark job-ами в пайплайн, где дедуплицируются, преобразуются и сохраняются в Postgesql и Clickhouse.

Текущие задачи:1) Оптимизация Kafka.2) Spark Jobs, нужно слегка видоизменить пайплайн, а именно изменить поля взимаемые из json в s3.3) Нужно решить проблему с мерджем таблиц, а именно: есть несколько одинаковых по структуре таблицы, нужно перегнать данные из них в одну.4) Оптимизация SQL запросов, по возможности переписать на matview.5) Нужно написать еще несколько SQL запросов: запрос на получение информации о товаре, запрос для построения лайнчарта за временной период (дни, месяцы, года).

Подробности и документацию предоставим при общении.
Просьба оставлять контакт Telegram для связи.