Data Engineer в команду Data Lake
НаправлениеИнформационные технологии
КомандаData Lake
Дата публикации24.10.2022
Нажимайте смело — отклик произойдет только на следующем шаге

Data Engineer в команду Data Lake

Мы являемся частью централизованной аналитической платформы данных - Analytical Data Platform, которая включает в себя Data Lake (Hadoop) и аналитическое DWH (Green Plum).

В рамках нашего продукта мы решаем вопрос по стандартизации и автоматизации разработки загрузки/обработки "сырых" данных, за качество данных в бизнес слое DWH. Поддерживаем Hadoop и сервисы вокруг него.

Перед нами стоит задача развития современной аналитической платформы, включающей инструменты по сбору, хранению, обработке и анализу данных. Подразделения банка имеют возможность использовать разработанные нашей командой инструменты, процессы и интерфейсы для быстрой и независимой разработки для решения своих прикладных бизнес-задач, связанных с анализом данных.

Пользователи нашей платформы - разработчики из продуктовых команд, решающие прикладные задачи ETL для автоматизации бизнес-процессов, Data Scientist'ы и аналитики, которые анализируют с помощью разных инструментов данные, хранящиеся в Data Lake, строят дашборды, обучают и применяют к новым данным модели машинного обучения.

Наш текущий стек:RHEL, Hadoop (а именно HDFS, YARN, Hive), Spark2/3, PostgreSQL, Airflow, NiFi, Zabbix, Rundeck, Jira/Confluence, Gitlab, Ansible, Docker, Grafana.

В связи с увеличением популярности платформы и роста количества задач мы ищем Data Engineer'а, который усилит команду и поможет нам в достижении наших целей по развитию платформы.
Кандидат, успешно прошедший собеседование и присоединившийся к платформенной команде, будет:
  • заниматься "платформизацией" используемого стека с целью максимальной автоматизации и оптимизации процесса параллельной независимой разработки на платформе (скрытие сложности реализации низкоуровнего ПО типа Hadoop или Airflow за определенным уровнем абстракции путем разработки интерфейсов, процессов, CI/CD пайплайнов, соглашений, документации и т.д., чтобы продуктовые разработчики могли сосредоточиться на решении прикладных задач);
  • прорабатывать архитектурные вопросы взаимодействия существующих и добавляемых компонентов платформы как между собой, так и с внешними системами (источники, потребители);
  • оказывать поддержку разработчикам Data Lake из продуктовых команд;
  • эпизодически решать прикладные задачи на платформе для понимания опыта разработчиков из продуктовых команд - построение ETL-пайплайнов для загрузки в/из Data Lake с использованием платформенных инструментов;
  • осуществлять поддержку и решать инциденты в прод-контуре (в том числе от пользователей);
  • проводить RnD, изучать новое open-source ПО (соответствует ли оно нашим стандартам и действительно ли закрывает выявленные потребности).
Эта вакансия для тебя, если ты:
  • работал с SQL и имеешь опыт написания запросов, тебя не пугают: join’ы, агрегатные функции, подзапросы, оконные функции;
  • имеешь опыт работы с любой из "классических" РСУБД (Oracle, MS-SQL PostgreSQL) в качестве разработчика/администратора;
  • писал код на Python или любом другом языке программирования общего назначения;
  • изучал HDFS и Hadoop, пробовал разворачивать дистрибутив Hadoop дома или в облаке;
  • использовал Hadoop, знаешь, как работает YARN, как эффективно хранить данные на HDFS, писал запросы в Hive;
  • писал код на Spark и можешь считать данные сервиса, используя его Rest API, отсортировать, отфильтровать их и сохранить результат на HDFS;
  • знаком с различными типами СУБД (SQL, NoSQL) и профилями использования (OLAP, OLTP) и можешь аргументированно выбрать оптимальный тип СУБД под задачу;
  • имеешь опыт работы с Airflow или любым другим оркестратором;
  • плотно работал с Hadoop в качестве разработчика/Data Engineer’а;
  • можешь определить для решения какой задачи выбор того или иного инструмента архитектурно более правильный;
  • можешь ставить задачи, планировать работу, общаться с заказчиками, быть наставником для менее опытных коллег;

Будет преимуществом, если ты:
  • знаком с банковской предметной областью;
  • имеешь опыт разработки/внедрения систем класса DWH;
  • можешь деплоить приложения в Docker;
  • разбираешься в CI/CD практиках и инструментах;
  • можешь продемонстрировать один из своих проектов на GitHub;
  • умеешь писать на Java или Scala (на последней - применительно к использованию в связке со Spark).
Что предлагаем:
  • Agile-подход на всех уровнях организации (разработка и развитие сервисов происходит в парадигме Scrum);
  • кросс-функциональные команды: владелец сервиса является неотъемлемым членом команды, непосредственно участвующим во всех процессах создания вверенного ему сервиса и жизни команды;
  • комфортную культуру открытости и отзывчивости;
  • команду IT, состоящую из настоящих профессионалов, которые выступают даже на международных конференциях;
  • сильные профессиональные IT-сообщества;
  • отсутствие бюрократии и дресс-кода;
  • гибридный формат работы (дом/офис) или полностью удаленный формат;
  • возможность проходить внутреннее и внешнее обучение;
  • понятную структуру дохода и удобную выплату зарплаты двумя равными долями каждые две недели;
  • ДМС со второй недели работы со стоматологией и массажем в РФ;
  • страхование жизни и выезжающих за рубеж, страхование в направлении онкологии;
  • специальные предложения по вкладам и кредитам;
  • скидки от компаний-партнеров по программе Prime Zone в РФ;
  • доплату за 14 дней в году по больничному листу до оклада (после испытательного срока);
  • доплату к отпускам, оформленным в январе и мае;
  • 3 оплачиваемых отгула в год.