Райффайзенбанк ищет Data Engineer'а, который станет частью нашей команды.
Перед нами стоит задача наполнения корпоративного хранилища на стыке распределённой файловой системы HDFS и MPP Greenplum, используя как инструменты по сбору, хранению и обработке данных, так и сбору самих данных в режиме real-time.
Наша вакансия подразумевает получение и применение уникального опыта на стыке построения ETL-пайплайнов на основе open-source технологий (Spark, Ignite, Hadoop, Greenplum, NiFi, Airflow, Kafka).
-
Дата публикации:20.01.2021
-
Код вакансии:29949
Требования
- Как Middle Data Engineer:
- работаешь с SQL на уровне написания сложных запросов: знаешь, что такое оконные функции, функции ранжирования, CTE;
- используешь Hadoop, знаешь, как работает YARN, как эффективно хранить данные на HDFS, пишешь запросы в Hive;
- пишешь код на Python, пользуешься GIT, знаешь, что такое Unit тесты;
- пишешь код на Spark и можешь считать данные сервиса, используя его API, отсортировать, отфильтровать их и сохранить результат на HDFS;
- Знаком с различными типами СУБД (SQL, NoSQL) и профилями использования (OLAP, OLTP) и можешь аргументированно выбрать оптимальный тип СУБД под задачу
- имеешь опыт работы с Airflow или любым другим оркестратором
- пишешь прозрачный читающийся код, разделяешь его на классы, применяешь паттерны;
- как плюс: имеешь опыт с Kafka или другим message broker'ом и знаешь основные концепции потоковой обработки данных
- как плюс: имеешь опыт работы с Greenplum
- Как Senior Data Engineer:
- умеешь все то же что и Middle Data Engineer;
- плотно работаешь с Hadoop в качестве разработчика/Data engineer’а;
- у тебя есть опыт работы со Spark не менее 2х лет;
- знаешь, что нового в Spark 3.0 и Hadoop 3.0;
- можешь определить для решения какой задачи выбор того или иного инструмента архитектурно более правильный;
- можешь ставить задачи, планировать работу, менторить джуна, общаться с заказчиками;
- как плюс: имеешь опыт работы с Tableu
+ Будет преимуществом, если ты:
- знаешь банковскую предметную область;
- имеешь опыт разработки/внедрения систем класса DWH
- разбираешься в CI/CD практиках и инструментах;
- можешь продемонстрировать один из своих проектов на GitHub
- умеешь писать на Java или Scala (на последней - применительно к использованию в связке со Spark)
Обязанности
- определять с заказчиком, какие данные нужны для решения задач и оперативно строить пайплайны по загрузке данных в Data Lake и GreenPlum на регулярной основе;
- применять техники потоковой обработки данных для решения реал-тайм задач;
- строить витрины под аналитические цели коллег, выбирая оптимальный формат и структуру хранения данных;
- строить отчёты в BI Tableu
Условия
- гибкое начало рабочего дня; сейчас мы работаем удаленно, после снятия ограничений - частично удаленный формат;
- у тебя будет расширенная страховка почти во всех клиниках Москвы от Росгосстрах (со стоматологией, телемедициной);
- ты сможешь бесплатно тренироваться в нашем спортзале, либо ты можешь выбрать другой фитнес зал с большой скидкой (например, world class);
- у нас отличная столовая с завтраками, обедами и ужинами, оборудованные кухни, кофе бар;
- у тебя есть возможность повышать свой уровень - есть компенсация курсов на coursera, udemy;
- мы посещаем различные конференции и наши сотрудники выступают на крупных мероприятиях (например, Joker);
- можно подключиться к корпоративной библиотке MyBook, воспользоваться Premium от Wikium;
- мы предоставляем страхование (в путешествиях, от несчастных случаев и др.).