Data Engineer в команду CVM
ГородМосква
НаправлениеИнформационные технологии
КомандаCVM AI
Дата публикации17.11.2021
Нажимайте смело — отклик произойдет только на следующем шаге

Data Engineer в команду CVM

Мы - команда Data Science, отвечающая за решение бизнес-задач банковского ритейла. Постоянно улучшаем ML-модели, добавляя новые источники данных и работая над качеством уже используемых. Решаем ETL-задачи на очень больших данных, настраиваем стриминг и отвечаем за собственные хранилища hot/cold data в дополнение к общебанковскому Datalake.
Самостоятельно развиваем MLOps и свои продакшн-пайплайны, для чего необходима коллаборация DS и DE, а также применение devops-практик всеми членами команды. Приветствуем привнесение новых подходов и технологий и всячески поддерживаем стремление к обучению, росту, обмену знаниями и наставничеству.
Обязанности
Зоной ответственности DE в команде является подготовка данных в удобном виде для коллег-DS, построение пайплайнов для их формирования как батчами в корпоративном хранилище, так и в режиме real-time.
Наш стек технологий: Python, Spark, Airflow, Hive, Kafka, NiFi, а также «местами»: Docker, Scala, Greenplum. CI/CD и инфраструктура: GitLab, Ansible. Мы идем: в Kubernetes, Spark Streaming, Redis.
Требования
Эта вакансия для тебя, если ты:
  • работаешь с SQL на уровне написания сложных запросов: знаешь, что такое оконные функции, функции ранжирования, CTE;
  • используешь Hadoop, знаешь, как работает YARN, как эффективно хранить данные на HDFS, пишешь запросы в Hive;
  • пишешь код на Python, пользуешься GIT, знаешь, что такое Unit тесты;
  • пишешь код на Spark и можешь считать данные сервиса, используя его API, отсортировать, отфильтровать их и сохранить результат на HDFS;
  • знаком с различными типами СУБД (SQL, NoSQL) и профилями использования (OLAP, OLTP) и можешь аргументированно выбрать оптимальный тип СУБД под задачу;
  • имеешь опыт работы с Airflow или любым другим оркестратором;
  • пишешь прозрачный читаемый код, разделяешь его на классы, применяешь паттерны;
  • имеешь опыт с Kafka или другим message broker'ом и знаешь основные концепции потоковой обработки данных;
  • знаком со стриминговыми инструментами обработки данных: делал обработку на Flink, Spark Streaming или NiFi;

  • как плюс: умеешь деплоить приложения в Docker;
  • как плюс: имеешь опыт работы в k8s;
  • как плюс: есть опыт выстраивания CI/CD (особенно для контейнеров).
Условия
  • гибкое начало рабочего дня; сейчас мы работаем удаленно, по договоренности собираемся в офисе, возможен полностью удаленный формат;
  • у тебя будет расширенная страховка почти во всех клиниках Москвы от Росгосстрах (со стоматологией, телемедициной);
  • ты сможешь бесплатно тренироваться в нашем спортзале, либо ты можешь выбрать другой фитнес зал с большой скидкой (например, world class);
  • у нас отличная столовая с завтраками, обедами и ужинами, оборудованные кухни, кофе бар;
  • у тебя есть возможность повышать свой уровень – оплата необходимых курсов + внутренние ИТ-школы;
  • мы посещаем различные конференции, и наши сотрудники выступают на крупных мероприятиях;
  • можно подключиться к корпоративной библиотке MyBook, воспользоваться Premium от Wikium;
  • мы предоставляем страхование (в путешествиях, от несчастных случаев и др.).