Data Engineer в команду валидации моделей
Откликнуться
  • Дата публикации:
    15.05.2020
  • Код вакансии:
    VMSK7476.SS28.DE

В команду валидации внутренних моделей требуется data engineer для подготовки данных для проведения валидации, а также проверки качества данных, используемых в рамках разработки и применения моделей.
Мы готовы рассмотреть специалистов разного уровня, у нас есть задачи и перспективы для Junior, Middle и Senior специалистов. Наш идеальный кандидат имеет опыт в части программирования и применения SQL и обладает теоретическими знаниями в части Hadoop, HDFS, парадигм разработок.

  • Дата публикации:
    15.05.2020
  • Код вакансии:
    VMSK7476.SS28.DE

Требования:

Как Junior Data Engineer:
- изучал SQL и тебя не пугают: joinы, агрегатные функции, подзапросы, DDl, DML, DCL, CTE, транзакции;
- читал о HDFS и Hadoop и даже сам пробовал поднимать дома или в облаке;
- знаком с понятием ООП и без труда объяснишь, что это;
- кодил на Java, Scala или Python;
- тебе не слабо развернуть дистрибутив Hadoop Hortonworks 3.0, запулить туда текстовый файлик и прочитать его содержимое с HDFS любым способом;
- готов узнавать много нового и активно качать скилл.
Как Middle Data Engineer:
- умеешь все то же, что и Junior Data Engineer;
- работал с SQL и не раз писал сложные запросы;
- использовал Hadoop, знаешь, как работает Yarn, как эффективно хранить данные на HDFS, писал запросы в Hive;
- имел дело с key-value БД (Hbase, Cassandra...);
- пишешь читабельный код, разделяешь его на классы, применяешь паттерны;
- знаешь, что такое Unit-тесты;
- обязательно и часто коммитишь сделанные изменения;
- писал код на Spark и можешь считать данные сервиса используя его Rest API, отсортировать, отфильтровать их и сохранить результат на HDFS;
- имел дело с Kafkой и баловался со стримингом;
- умеешь работать самостоятельно.
Как +:
- знаком с банковской предметной областью;
- имеешь опыт работы с любой из "классических" РСУБД (Oracle, MS-SQL PostgreSQL);
- можешь деплоить приложения в Docker;
- разбираешься в CI/CD практиках и инструментах;
- можешь продемонстрировать один из своих проектов на GitHub.

Чем предстоит заниматься:

-собирать и подготавливать данные для валидации и мониторинга моделей (работа с хранилищами SAS, Oracle, Hadoop);
-проверять данные, используемые для разработки моделей и скрипты по их сбору;
-применять техники потоковой обработки данных для решения реал-тайм задач;
-строить витрины данных, выбирая оптимальный формат и структуру хранения данных;
-придумывать индикаторы качества данных;
-использовать такие технологии, как: SQL, SAS, Hadoop, Spark, NiFi, Hive, Hbase, Kafka, Airflow, ClickHouse, Java, Python.

Что мы предлагаем:

-свободу в выборе инструментов для решения задач;
-регулярное посещение тренингов, митапов и конференций (в том числе как спикер);
-командную работу и поддержку;
-гибкое начало дня;
-отличный социальный пакет (ДМС, скидки на корпоративные продукты, спортзал в здании);
-вкусное кафе в здании, где можно обедать и пить свежесваренный кофе 2/3/4 раза в день в любое время;
-ты сможешь за одну минуту добраться от ст.м. Технопарк до комфортного офиса;
-отсутствие бюрократии и позитивный настрой.
Откликнуться на вакансию
Ваше имя
Фамилия
Email
Телефон
Дата рождения
Город проживания
Гражданство
Ссылка на резюме
Если у вас нет резюме, заполните анкету
Область образования
Учебное заведение
Иностранный язык
Уровень владения
+ добавить поле
Удалить
Текущая/последняя должность
Опыт работы
+ добавить поле
Удалить
Дополнительное образование
+ добавить поле
Удалить
Иные заслуги
О себе
Отправить