Data Quality инженер Валентин Тарасов рассказал про особый мир этого направления в EPAM, о разных взглядах на Data Quality и о необходимых навыках, если вы начинаете в профессии с нуля.
Расскажи о Data-практике в ЕРАМ: что из себя представляет, какие есть направления внутри?
Это хороший вопрос, потому что Data-практика в ЕPAM — это отдельный мир внутри компании. Внутри практики есть 6 направлений: бизнес-анализ, Business Intelligence, Data Quality, Big Data, Data Science, DevOps. Особенность нашей практики в том, что, например, бизнес-аналитики есть и у нас, и в других практиках. И они выполняют в чём-то общие, а в чём-то разные задачи. Наша практика занимается именно Data-проектами, т. е. связанными с данными. Часто мы работаем с коллегами из других практик, других стран и других направлений. Если мы отвечаем, например, за бэкенд, то другая команда ЕРАМ может отвечать за фронтенд, и мы будем работать вместе как кросс-практика.
Бытует мнение, что Data — это очень сложно, и часто новички проходят мимо этого направления. Что можешь ответить на это?
Я бы не сказал, что Data — это сложно. Да, нужно быть склонным к работе с данными. Как говорят, иметь аналитический склад ума, когда вы думаете о цифрах или аналитике, которая выражается в цифрах. Также необходимо уметь вникать в суть данных: какие именно данные к вам пришли, что стоит за цифрами и что вы должны сделать, чтобы их проверить.
Если вам нравятся цифры, вы понимаете их и осознаёте, что за ними стоит, то работа с данными вам подходит
Тогда Data Quality — что это?
Есть два подхода к Data Quality (DQ), простой и более сложный. С одной стороны, это тестирование данных: нужно сделать так, чтобы заказчик или команда, которая будет использовать данные, были уверены в том, что эти данные правильные: они не «сломались» по дороге и поступают откуда нужно. С другой стороны, качество данных — это само по себе очень важно. Если данные будут некачественные, то зачем их собирать? Здесь речь идёт о том, как сделать так, чтобы данные отображали что нужно. Чтобы было понятно, зачем эти данные собираются и где будут использоваться.
Поговорим о ежедневных задачах: что будут делать ребята, которые хотят стать Data Quality инженерами?
В ЕРАМ множество разных проектов. В зависимости от того, на какой стадии находится проект, у вас будут разные задачи.
- На начальном этапе проекта вам вряд ли понадобится писать код. Вы будете много читать, общаться и пытаться понять, что на самом деле нужно заказчику и что будет считаться качественными данными. Ваша ежедневная рутина — это встречи. Вместе с бизнес-аналитиком вы разбираетесь с требованиями к качеству данных. А потом формализуете всю информацию в тестовый план или стратегию.
- Потом наступает второй, основной, этап разработки quality gates, проверки качества данных. У вас уже есть требования к данным. На основе этих требований вы пишете код, проверяющий эти данные: то, насколько они подходят под эти требования. Код может быть на SQL, Python, Java. Часто бывает важен хорошо читаемый код, чтобы его могли понять не только ваши коллеги, но и, например, сторона заказчика.
- И затем третий этап — поддержка. Когда уже всё настроено, придумано, ежедневно проверяется. И вы следите, чтобы ничего не ломалось, занимаетесь мониторингом. И если что-то не работает, то выясняете причины, почему и на каком этапе, и предполагаете, как можно исправить.
Data Quality инженер — комплексная профессия. В ней сочетаются и Data-инженер, и аналитик, и тестировщик
На каких проектах востребованы Data Quality специалисты в ЕРАМ?
Спектр проектов в EPAM большой, и спрос на DQ-специалистов тоже. Из областей я бы выделил финтех, телекоммуникации, нефтегазовый сектор, интернет-маркетинг, life sciences, в том числе медицину и фармакологию. Основное, что объединяет эти проекты — работа с Big Data.
Какие перспективы есть у джуниора в EPAM?
Я предлагаю посмотреть на глобальную перспективу. Рост IT во всём мире, особенно учитывая кардинальные изменения прошлого года, огромный. ЕРАМ растёт ускоренными темпами: появляется много новых проектов, и в компанию приходит большое количество новых сотрудников. И поэтому возможностей для роста открывается много. Если смотреть в самых общих чертах, в EPAM можно стать, например, ведущим инженером, менеджером или Solution Architect. Для каждой роли разработаны матрицы компетенций: если вы знаете, кем хотите стать, то ваш ресурсный менеджер расскажет как. В быстрорастущей компании на быстрорастущем рынке можно достичь любых вершин.
Почему джуниоры нужны именно в Data Quality?
Потому что в России сейчас большая проблема найти готовых DQ-специалистов. Это будут или тестировщики, которые имели отношение к Data, но у них нет аналитического подхода в работе. Или это будут Data-инженеры, которые хотят поработать в DQ, но у них есть пробелы, связанные с методологией тестирования и документацией. А если вы берёте подходящего кандидата и обучаете его на DQ-инженера, то правильный человек оказывается в нужном месте в нужное время.
Качественные данные нужны для принятия правильных бизнес-решений
Расскажи про обучение в тренинг-центре: что в него входит, чем будет заниматься будущий студент?
Главное требование при отборе кандидатов на обучение по DQ — это внутренняя мотивация закончить тренинг и стать DQ-инженером. А уже hard skills мы научим 😊
Первая часть — тренинг — посвящена Data Quality и базовым навыкам, необходимым в работе. Мы рассказываем, что такое DQ, что общего и какие различия между DQ, тестированием и Quality Assurance (можно сказать, что DQ — это часть Quality Assurance). Мы обучаем SQL, а также Python как основному языку программирования. Потом мы преподаём основы работы с базами данных, их архитектурой. Учим базовым навыкам администрирования Linux и работе в облаках. Учим работать с GitHub. Занятия в основном состоят из самостоятельного изучения материалов, обсуждения их с ментором и выполнения домашних заданий. Это подходит для тех, у кого или мало опыта работы, или есть желание систематизировать знания.
Вторая часть обучения — лаборатория, где менторы обучают Big Data технологиям. Data-практика в России занимается проектами с Big Data. Эта работа связана с использованием определённых технологий, кластеров, приложений, облаков. Понятно, что даже у человека с опытом работы в IT не всегда будет опыт работы с Big Data и облаками. Для обучения в лаборатории мы выбрали наиболее востребованные технологии: Spark, Hive, ELK, Kafka и т. д.
Чем лаборатория по Data Quality отличается от других лабораторий?
Менторингом. У каждого студента лаборатории есть свой наставник. Наставник ориентируется на текущий уровень знаний студента и пытается подтянуть его. Даже если вы только начинаете, у вас всё равно есть шанс попасть к нам в лабораторию, окончить её и устроиться на работу в EPAM. Потому что ментор будет делать всё для вашего роста и успешной сдачи экзамена. Ментор в первую очередь заинтересован в том, чтобы обучить вас и вы стали его коллегой.
Какие знания и навыки нужны будущему студенту, чтобы пройти интервью?
На входном собеседовании будут оцениваться не hard skills. Во-первых, кандидат должен показать интервьюерам своё желание учиться. Возможно, он продемонстрирует понимание того, чем будет заниматься в DQ-практике. Во-вторых, английский язык. В EPAM сотни проектов, где необходим английский. И дело не только в том, что вы не сможете донести свою мысль. Главная цель — понимать людей, их речь и идеи, а также быть понятным другим.
На техническом интервью будут проверять hard skills. Необходимо будет показать знание основ Python и SQL. SQL — универсальный язык работы с данными. Он используется и Data-инженерами, и бизнес-аналитиками, и клиентами. Также хорошо на базовом уровне понимать Linux, интересоваться IT в целом, иметь широкий кругозор в этой сфере. В DQ невозможно выучить один инструмент и всё время пользоваться только им. Каждый новый проект приносит новый стек технологий. И знание инструментов, которые сейчас используются в индустрии, достаточно важно.
Сколько длится тренинг, и когда можно рассчитывать на трудоустройство?
На тренинге мы не придерживаемся жёстких рамок. Когда вы приходите на тренинг, вам ставят дедлайн в полтора–два месяца. Но эти сроки обсуждаемы. Если вы выучите быстро (недавно студент за выходные прошёл четверть курса и решил все домашние задания), отлично! Если не успеваете — мы пойдём навстречу. Главное, не пропадать и быть на связи. В среднем первая часть рассчитана на 2 месяца. И после этого лаборатория по Big Data идёт ещё 2–3 месяца.
Как скоро можно попасть на рабочий проект в EPAM?
В ЕРАМ сейчас огромный рост количества проектов. И поэтому в любой момент тренинга вы можете устроиться на работу. Появится проект, а у вас есть подходящие навыки — тогда вы проходите интервью и работаете. Но это не освобождает вас от тренинга. Просто теперь у вас будет две задачи: и работать, и учиться.
Почему стоит идти в Data Quality прямо сейчас?
Самое привлекательное для меня в этом направлении — его универсальность. У вас большой спектр задач, и вы можете найти для себя проект, который вам больше нравится. Например, если вам нравится Data-анализ, вы можете больше работать с бизнес-аналитиком и собирать информацию о данных, строить таблицы и разбираться, что стоит за этими данными. Если вам больше нравится программирование, то вы пишете хороший фреймворк, который будет отлично работать и всем понятен. Если вам нравится тестирование, Quality Assurance, вы можете написать тысячи автотестов и исчерпывающую документацию. Вы можете попробовать себя в разных ролях и областях: и в финтехе, и в машинном обучении, и в Data Science.
По окончании обучения вы станете тем, кто нужен где угодно
Какие советы можно дать тем, кто только присматривается к направлению?
Сначала хорошо бы понять немного глубже, что такое Data Quality. Список полезных ресурсов можно найти в этом интервью и других статьях из этой серии (часть 1, часть 2).
Вторая рекомендация — нужно иметь мотивацию. Если она есть, то получится преодолеть все временные трудности, которые будут во время учёбы. Возможно, вам придётся отложить всё и на какое-то время сосредоточиться на получении новых знаний и выполнении домашних заданий. И чтобы не потерять свою цель, не бросить на полпути, хорошо сразу иметь хорошую мотивацию успешно закончить обучение и попасть к нам на работу.