НаправлениеИнформационные технологии
КомандаData Lake
Дата публикации24.10.2022
Data Engineer в команду Data Lake
Мы являемся частью централизованной аналитической платформы данных - Analytical Data Platform, которая включает в себя Data Lake (Hadoop) и аналитическое DWH (Green Plum).
В рамках нашего продукта мы решаем вопрос по стандартизации и автоматизации разработки загрузки/обработки "сырых" данных, за качество данных в бизнес слое DWH. Поддерживаем Hadoop и сервисы вокруг него.
Перед нами стоит задача развития современной аналитической платформы, включающей инструменты по сбору, хранению, обработке и анализу данных. Подразделения банка имеют возможность использовать разработанные нашей командой инструменты, процессы и интерфейсы для быстрой и независимой разработки для решения своих прикладных бизнес-задач, связанных с анализом данных.
Пользователи нашей платформы - разработчики из продуктовых команд, решающие прикладные задачи ETL для автоматизации бизнес-процессов, Data Scientist'ы и аналитики, которые анализируют с помощью разных инструментов данные, хранящиеся в Data Lake, строят дашборды, обучают и применяют к новым данным модели машинного обучения.
Наш текущий стек:RHEL, Hadoop (а именно HDFS, YARN, Hive), Spark2/3, PostgreSQL, Airflow, NiFi, Zabbix, Rundeck, Jira/Confluence, Gitlab, Ansible, Docker, Grafana.
В связи с увеличением популярности платформы и роста количества задач мы ищем Data Engineer'а, который усилит команду и поможет нам в достижении наших целей по развитию платформы.
Кандидат, успешно прошедший собеседование и присоединившийся к платформенной команде, будет:
- заниматься "платформизацией" используемого стека с целью максимальной автоматизации и оптимизации процесса параллельной независимой разработки на платформе (скрытие сложности реализации низкоуровнего ПО типа Hadoop или Airflow за определенным уровнем абстракции путем разработки интерфейсов, процессов, CI/CD пайплайнов, соглашений, документации и т.д., чтобы продуктовые разработчики могли сосредоточиться на решении прикладных задач);
- прорабатывать архитектурные вопросы взаимодействия существующих и добавляемых компонентов платформы как между собой, так и с внешними системами (источники, потребители);
- оказывать поддержку разработчикам Data Lake из продуктовых команд;
- эпизодически решать прикладные задачи на платформе для понимания опыта разработчиков из продуктовых команд - построение ETL-пайплайнов для загрузки в/из Data Lake с использованием платформенных инструментов;
- осуществлять поддержку и решать инциденты в прод-контуре (в том числе от пользователей);
- проводить RnD, изучать новое open-source ПО (соответствует ли оно нашим стандартам и действительно ли закрывает выявленные потребности).
Эта вакансия для тебя, если ты:
- работал с SQL и имеешь опыт написания запросов, тебя не пугают: join’ы, агрегатные функции, подзапросы, оконные функции;
- имеешь опыт работы с любой из "классических" РСУБД (Oracle, MS-SQL PostgreSQL) в качестве разработчика/администратора;
- писал код на Python или любом другом языке программирования общего назначения;
- изучал HDFS и Hadoop, пробовал разворачивать дистрибутив Hadoop дома или в облаке;
- использовал Hadoop, знаешь, как работает YARN, как эффективно хранить данные на HDFS, писал запросы в Hive;
- писал код на Spark и можешь считать данные сервиса, используя его Rest API, отсортировать, отфильтровать их и сохранить результат на HDFS;
- знаком с различными типами СУБД (SQL, NoSQL) и профилями использования (OLAP, OLTP) и можешь аргументированно выбрать оптимальный тип СУБД под задачу;
- имеешь опыт работы с Airflow или любым другим оркестратором;
- плотно работал с Hadoop в качестве разработчика/Data Engineer’а;
- можешь определить для решения какой задачи выбор того или иного инструмента архитектурно более правильный;
- можешь ставить задачи, планировать работу, общаться с заказчиками, быть наставником для менее опытных коллег;
Будет преимуществом, если ты:
- знаком с банковской предметной областью;
- имеешь опыт разработки/внедрения систем класса DWH;
- можешь деплоить приложения в Docker;
- разбираешься в CI/CD практиках и инструментах;
- можешь продемонстрировать один из своих проектов на GitHub;
- умеешь писать на Java или Scala (на последней - применительно к использованию в связке со Spark).
Что предлагаем:
- Agile-подход на всех уровнях организации (разработка и развитие сервисов происходит в парадигме Scrum);
- кросс-функциональные команды: владелец сервиса является неотъемлемым членом команды, непосредственно участвующим во всех процессах создания вверенного ему сервиса и жизни команды;
- комфортную культуру открытости и отзывчивости;
- команду IT, состоящую из настоящих профессионалов, которые выступают даже на международных конференциях;
- сильные профессиональные IT-сообщества;
- отсутствие бюрократии и дресс-кода;
- гибридный формат работы (дом/офис) или полностью удаленный формат;
- возможность проходить внутреннее и внешнее обучение;
- понятную структуру дохода и удобную выплату зарплаты двумя равными долями каждые две недели;
- ДМС со второй недели работы со стоматологией и массажем в РФ;
- страхование жизни и выезжающих за рубеж, страхование в направлении онкологии;
- специальные предложения по вкладам и кредитам;
- скидки от компаний-партнеров по программе Prime Zone в РФ;
- доплату за 14 дней в году по больничному листу до оклада (после испытательного срока);
- доплату к отпускам, оформленным в январе и мае;
- 3 оплачиваемых отгула в год.
- еще десятки льгот и бонусов для сотрудников