Data Engineer в DATA
ГородМосква
НаправлениеИнформационные технологии
КомандаAnalytical DWH Capitalization
Дата публикации09.12.2021
Нажимайте смело — отклик произойдет только на следующем шаге

Data Engineer в DATA

Райффайзенбанк ищет Data Engineer'а, который станет частью IT-команды (~10 человек) развития платформы Data Lake.
Перед нами стоит задача создания современной аналитической платформы, включающей инструменты по сбору, хранению, обработке и анализу данных. В результате построения платформы подразделения банка получают возможность использовать разработанные нашей командой инструменты, процессы и интерфейсы для быстрой и независимой разработки для решения своих прикладных бизнес-задач, связанных с анализом данных.
Пользователи нашей платформы - разработчики из продуктовых команд, решающие прикладные задачи ETL для автоматизации бизнес-процессов, Data Scientist'ы и аналитики, которые анализирующие с помощью разных инструментов данные, хранящиеся в Data Lake, строят дашборды, обучают и применяют к новым данным модели машинного обучения.
В настоящее время на платформе Data Lake одновременно ведут разработку 40 продуктовых разработчиков, чьими результатами в прод-контуре пользуются около 500 пользователей, включая Data Scientist'ов и аналитиков данных. Данные в Data Lake в автоматическом режиме поставляются из более чем 100 источников, как внутренних, так и внешних.
Наш текущий стек: RHEL, Hadoop, Sqoop, Hive, Hbase, Spark, Ranger, Greenplum, PostgreSQL, Airflow, NiFi, Kafka, Zabbix, Rundeck, Jira/Confluence, Bitbucket, Bamboo, Ansible, Docker, Nginx, Grafana. Командная коммуникация в Zoom, текстовые сообщения (включая от ботов по мониторингу) - в Slack.
В связи с увеличением популярности платформы и роста количества задач мы ищем Data Engineer'а, который усилит команду и поможет нам в достижении наших целей по развитию платформы.
В этой роли ты будешь:
  • анализировать используемый стек технологий на соответствие текущим потребностям продуктовых бизнес-команд, выявлять нереализованные потребности;
  • проводить RnD, изучать новое open-source ПО (соответствует ли оно нашим стандартам и действительно ли закрывает выявленные потребности);
  • прорабатывать архитектурные вопросы взаимодействия существующих и добавляемых компонентов платформы как между собой, так и с внешними системами (источники, потребители);
  • автоматизировать развертывание ПО;
  • заниматься "платформизацией" используемого стека с целью максимальной автоматизации и оптимизации процесса параллельной независимой разработки на платформе (скрытие сложности реализации низкоуровнего ПО типа Hadoop или Airflow за определенным уровнем абстракции путем разработки интерфейсов, процессов, CI/CD пайплайнов, соглашений, документации и т.д., чтобы продуктовые разработчики могли сосредоточиться на решении прикладных задач);
  • оказывать поддержку разработчикам Data Lake из продуктовых команд;
  • эпизодически решать прикладные задачи на платформе для понимания опыта разработчиков из продуктовых команд - построение ETL-пайплайнов для загрузки в/из Data Lake с использованием платформенных инструментов;
  • осуществлять поддержку и решать инциденты в прод-контуре (в том числе от пользователей).
Необходимая экспертиза и опыт в разрезе уровня роли.
Как Junior Data Engineer:
  • изучал SQL и тебя не пугают: join’ы, агрегатные функции, подзапросы;
  • как плюс: имеешь опыт работы с любой из "классических" РСУБД (Oracle, MS-SQL PostgreSQL) в качестве разработчика/администратора
  • изучал о HDFS и Hadoop и пробовал разворачивать дистрибутив Hadoop дома или в облаке;
  • писал код на Python или любом другом языке программирования общего назначения
  • готов узнавать много нового и активно развивать навыки по обработке данных
Как Middle Data Engineer:
  • умеешь все то же, что и Junior Data Engineer;
  • работал с SQL и не раз писал сложные запросы;
  • использовал Hadoop, знаешь, как работает YARN, как эффективно хранить данные на HDFS, писал запросы в Hive;
  • знаешь, что такое Unit тесты;
  • писал код на Spark и можешь считать данные сервиса, используя его Rest API, отсортировать, отфильтровать их и сохранить результат на HDFS;
  • Знаком с различными типами СУБД (SQL, NoSQL) и профилями использования (OLAP, OLTP) и можешь аргументированно выбрать оптимальный тип СУБД под задачу
  • имеешь опыт работы с Airflow или любым другим оркестратором
  • пишешь прозрачный читающийся код, разделяешь его на классы, применяешь паттерны;
  • Как плюс: имел опыт с Kafka или другим message broker'ом и знаешь основные концепции потоковой обработки данных
Как Senior Data Engineer:
  • умеешь все то же что и Middle Data Engineer;
  • плотно работал с Hadoop в качестве разработчика/Data engineer’а;
  • у тебя есть опыт работы со Spark не менее 2-х лет;
  • знаешь, что нового в Spark 2.4 и Hadoop 3.0;
  • можешь определить для решения какой задачи выбор того или иного инструмента архитектурно более правильный;
  • можешь ставить задачи, планировать работу, общаться с заказчиками, быть наставником для менее опытных коллег;
    Будет преимуществом, если ты:
  • знаком с банковской предметной областью;
  • имеешь опыт разработки/внедрения систем класса DWH
  • можешь деплоить приложения в Docker;
  • разбираешься в CI/CD практиках и инструментах;
  • можешь продемонстрировать один из своих проектов на GitHub
  • умеешь писать на Java или Scala (на последней - применительно к использованию в связке со Spark)

Эта вакансия для тебя, если ты:
  • изучал SQL и тебя не пугают: join’ы, агрегатные функции, подзапросы и оконные функции;
  • имеешь опыт работы с любой из "классических" РСУБД в качестве разработчика/администратора;
  • есть опыт работы с распределенными СУБД (MPP). Понимаешь особенности данных систем и учитываешь это при разработке;
  • писал код на Python или любом другом языке программирования общего назначения;
  • знаешь, что такое Unit тесты;
  • имеешь опыт разработки/внедрения систем класса DWH, понимаешь концепцию хранилищ данных;
  • имеешь опыт в разработке сложных ETL процессов, видишь пути автоматизации данных процессов;
  • имеешь опыт работы с Airflow или любым другим оркестратором;
  • пишешь прозрачный читающийся код, разделяешь его на классы, применяешь паттерны;
  • можешь ставить задачи, планировать работу, общаться с заказчиками, быть наставником для менее опытных коллег;
  • готов узнавать много нового и активно развивать навыки по обработке данных.
+ Будет преимуществом, если ты:
  • имеешь опыт работы с Greenplum;
  • знаком с банковской предметной областью;
  • можешь деплоить приложения в Docker;
  • разбираешься в CI/CD практиках и инструментах;
  • можешь продемонстрировать один из своих проектов на GitHub;
  • умеешь писать на Java или Scala;
  • знаком с различными типами СУБД (SQL, NoSQL) и профилями использования (OLAP, OLTP) и можешь аргументированно выбрать оптимальный тип СУБД под задачу.
Мы предлагаем:
- интересные задачи с высоким бизнес-эффектом;
- командную работу и поддержку;
- гибкий график и возможность самостоятельно планировать рабочее время;
- отличный социальный пакет (ДМС, скидки на корпоративные продукты, спортзал в здании);
- вкусное кафе в здании, где можно обедать и пить свежесваренный кофе;
- ты сможешь за одну минуту добраться от станции метро Технопарк до комфортного офиса;
- отсутствие формализма и позитивный настрой.