Сказать, что дата-инженер – это инженер, который работает с данными и создает дата-продукт, значит не соврать, но и ничего толком не объяснить. Мы поговорили с Data and Cloud Solution Architect EPAM Романом Новиком и руководителем Data Lab Анной Петрашко, чтобы разобраться, что такое данные и чем занимается дата-инженер.
Авторитетные мировые издания (The New York Times, The Economist, WIRED) давно вывели Data в тренды и провозгласили новой нефтью. Как и нефть данные бесполезны в сыром виде. Сначала их нужно переработать в топливо, которое само по себе все еще не несет какой-то ценности. Чтобы получить из него энергию, нам нужен двигатель. Это и есть дата-продукт.
Что мы подразумеваем под словом сырые: данные приземляются в нашу систему как клик с веб-сайта, блок финансовых транзакций или дамп медицинских записей. В таком виде их очень трудно использовать. Задача дата-инженера не просто собрать данные, но и превратить их в понятную для конечного пользователя информацию, которую условно можно открыть даже в exсel. Но и это еще не будет дата-продуктом. Информация должна приносить конкретную пользу в жизни. Даже умело расшифрованный кусок данных все еще ничего не значит. Нужны какие-то инструменты, чтобы их использовать. Только вместе это начинает приобретать значение.
Например, мы собрали данные метеорологических наблюдений за какой-то период, обработали и внесли в excel. Чтобы из этой информации получился дата-продукт, мы должны проанализировать температурные колебания и начать предсказывать погоду на сутки. Исходя из этих предсказаний конечный пользователь будет принимать решения. Чтобы решения приносили прибыль, важно знать, насколько информация правдивая. Каждая модель имеет свойство ошибаться, мы должны просчитать степень ошибки. Например, наш прогноз погоды точен на 70%. Эти цифры помогут пользователю трезво оценивать ситуацию и принять правильное решение.
Дата-продукт – это результат трансформации данных в качественную информацию, которая приносит пользу бизнесу.
Каждый дата-продукт имеет свой жизненный цикл и свою value chain или цепочку ценности. Дата-инженеры с точки зрения разработки, поддержки, сбора и анализа данных обеспечивают все шаги в этой цепочке. У каждого этапа есть свои характеристики и атрибуты, которые диктуют специфику работы. В большой машине инженерии данных слишком много разных типов продуктов "под капотом", поведения жизненных циклов, поэтому в дата-практике существует много разных инженерных специализаций:
- Data Engineer (собирает и перерабатывает данные, запускает процессы и строит сервисы, чтобы эти данные превратились в дата-продукт)
- Data Platform Engineer (занимается подготовкой платформ: инфраструктуры, инженерии, безопасности и мониторинга)
- Data Quality Engineer (сочетает в себе инженерные задачи, анализ данных и элементы тестирования; в какой-то момент мы поняли, что традиционное тестирование (QA) – это все-таки не та дисциплина, которая может обеспечивать надлежащий контроль качества данных в наших платформах, и выделили отдельное направление)
- Data DevOps Engineer (работает с распределенными системами, параллельно обрабатывает сложные данные в среде с большим количеством движущихся частей, приходится держать в уме очень много связей между компонентами систем, анализировать и устранять проблемы)
- Data Science Engineer (структурирует и анализирует большие объемы данных, предсказывает события)
- Search Engineer (мы определили Search Engineer в дата-экспертизу, потому что современный поиск стал очень умным, сейчас он намного ближе к Data Science и работе с данными, чем к каким-то другим дисциплинам)
- ML Engineer (Machine Learning – это особый случай Data Platform Engineerring, нужно не только работать с данными, но и обеспечивать прозрачность и управляемость жизненного цикла ML-продукта; из-за сложности этого процесса ML-инженер должен иметь более глубокую экспертизу)
Карьерные возможности для дата-инженера
Не все компании производят дата-продукт. Важно это понимать и находить отличия между веб- и датацентричными компаниями. Например, Gmail – это дата продукт? Нет. Это email сервис, цель которого упростить взаимодействие между людьми. Внутри этого сервиса существуют разные дата-продукты, интегрированные незаметно для пользователя: Gmail автоматически сортирует письма на важные и неважные. Для этого он использует дата-алгоритмы, но при этом сервис может существовать и без них. Здесь дата-продукты выступают в качестве улучшения UX. Можем сказать, что это веб-продукт, не дата. Если у руководства компании не стоит цель с помощью данных улучшить качество своего продукта, там вообще не нужны дата-инженеры. Такие специалисты нужны в компаниях, где люди хотят улучшить свойства продукта с помощью персонализации, рекомендаций, других фич, которые способны не только существовать поверх данных, но и сами являются производным от данных.
Акулы как Google или Яндекс постоянно будут нанимать дата-инженеров, потому что работа с данными – это ядро их бизнеса. Современные тенденции говорят о том, что потребность в дата-продуктах растет в принципе. Жесткая конкуренция на рынке толкает компании развивать свои продукты: встраивать уникальные фичи, автоматизировать процессы, заботиться об удобстве конечного пользователя. А большинство таких удобств, как персонализация, рекомендации, искусственный интеллект создаются именно с помощью дата-продуктов.
Приведем конкретный пример. FedEx конкурирует на рынке с Amazon. Обе компании занимаются коммерцией и работают с данными, но Amazon выходит вперед за счет искусственного интеллекта: посылки доставляют дроны, люди практически не нужны, отсюда и меньшие издержки. Чтобы влиться в тренд и отвоевать свой кусок, FedEx планирует оцифровать сервисы, операционную модель и научиться принимать data driven decisions. Поэтому спрос на дата-инженеров еще долго не сойдет на нет.
Где обучиться на дата-инженера
1. Онлайн-курсы. В интернете все чаще можно найти качественные тренинги по Data Engineering от компаний, которые двигают индустрию вперед (Google, Microsoft и т.д). Но чаще всего они рассказывают о дата-продуктах собственного производства, ограничивая пользователя. Хорошие курсы по Data Analysis на просторах интернета встречаются редко, нужно знать, где искать.
2. Тренинги на базе компаний. Это идеальный вариант для обучения. Здесь вам в подробностях расскажут всю теорию, предоставят возможность применить знания на практике и трудоустроят в случае успеха.
Наши эксперты уверены, что онлайн-тренинги – это хороший старт, но для трудоустройства недостаточно. После самостоятельного обучения многие приходят на интервью с кашей в голове и полным непониманием скоупа задач дата-инженера. Позиций для новичков в этом сегменте можно пересчитать по пальцам, потому как кот в мешке никому не нужен. Выход из этой ситуации один – стажировка. Ищите компанию с большим опытом в дата-практике, которая возьмет вас на поруки и будет показывать, что такое продакшн и «с чем его едят». Вам надо проявить себя так, чтобы задержаться и вырасти до middle или senior специалиста. С этих позиций будет проще зайти на интересные проекты в любой компании.
В EPAM на дата-инженера можно обучиться в blended-формате:
Этап 1. Online training. Мы предоставляем видеозаписи и ссылки на полезные материалы, лекции, статьи, youtube-каналы. Вы изучаете контент в домашних условиях, выполняете задания, общаетесь с нашими экспертами, а после сдаете тесты по теории офлайн и вместе с ментором разбираете наиболее сложные задачи.
Этап 2. Data Lab. После успешной сдачи теории, у вас есть шанс продолжить обучение в лаборатории. Первое время вы будете изучать теорию и сразу применять полученные знания на практике. Вас научат систематизировать информацию, создавать хранилища, строить на нем визуализацию и проверять качество ваших данных. Каждый из вас в первом блоке создаст свой собственный проект. Кроме того, вам в игровой форме объяснят какие функции на проекте выполняют project менеджер, delivery менеджер и бизнес-аналитик, На последнем этапе обучения в лаборатории вас разделят на команды и предоставят возможность практиковаться в реальных условиях. Вы будете знать больше, успевать больше, чувствовать себя увереннее.
Но для этого придется серьёзно постараться. Вас ждут ежедневные scrum митинги с проектным менеджером и бизнес-аналитиком со стороны заказчика, которые предоставят вам data set. А через месяц вы должны будете не просто презентовать клиенту свое решение, но и защитить его. Но и это еще не все испытания, которые приготовила для вас лаба. На протяжении полутора месяцев менторы будут подкидывать вам разные задачки и ситуации из их собственного опыта: от написания писем заказчику до общения с представителями клиента. Приготовьтесь набивать шишки и учиться. Следить за актуальными наборами на тренинги по Data от EPAM можно здесь.
С каким бэкграундом легче освоить профессию дата-инженера
Инженерия – это умение находить оптимальные решения в очень нестандартных ситуациях. Человек с аналитическим складом ума и техническим образованием легче зайдет в бэкенд разработчики, потому что там не требуется тесного общения с заказчиком. Специалист с экономическим бэкграундом и знанием бизнеса за плечами быстро вольется в командную работу и будет понимать клиента. Но четких разграничений нет, все индивидуально: зависит от личных качеств человека. Soft skills тоже имеют значение: коммуникабельные, мотивированные люди чаще задерживаются в компании. Помните, чем больше ты знаешь, тем быстрее тебя заметят и заберут на проект, тем быстрее ты вырастешь.
Советы начинающим дата-инженерам:
- Уделите время материалам для самоподготовки. Пройдите по ссылкам при регистрации на тренинг и почитайте. Это первый шаг к ответу на вопрос «работа с данными – это мое или не мое?»
- Трезво оцените свои скиллы и будьте честными на интервью. Дальше пройдут только самые мотивированные, кому действительно интересно работать и учиться.
- Не учитесь для других, учитесь для себя. Это не университет, здесь не сработает «сдал и забыл». Все знания, которые вы получите на курсе, станут кирпичами и цементом для вашей карьеры. Все они нужны, ни один нельзя выбросить.
- Задавайте вопросы. Если вам что-то непонятно, спросите ментора. Вопросы должны стать вашим основным инструментом общения на период обучения. Лучше спросить и понять, чем списать и не получить работу. Помните, на интервью с заказчиком вы будете один на один.
- Избавьтесь от предрассудков. Менторы – это не преподаватели в университете, это ваши будущие коллеги, с которыми можно поболтать и попить чай. Не нужно их бояться. Если вам тяжело, накатывают усталость, неуверенность или разочарование, поделитесь своими чувствами и вам обязательно помогут.