article-spots
article-carousel-spots
programs
Технологии

Мифы о Big Data, или Добро пожаловать в премьер-лигу

10 июня 2020

Появление трендового направления началось с необходимости… решить проблему. В 2003 году огромную популярность приобрели так называемые сайты-визитки, а их количество возрастало с астрономической скоростью, из-за чего поисковая система Google столкнулась с непосильной нагрузкой. Именно это стало стимулом для создания системы распределенных вычислений.


Сегодня Big Data решения применяют, когда стандартного подхода для работы с данными не достаточно, и необходимо сократить время на получение результата. Чаще всего эти решения используются для анализа спроса, изучения потребительских предпочтений, потребностей и мотивации покупателей товаров и услуг, оптимизации цен, создания персонифицированных предложений и т.д.

Благодаря Big Data Starbucks присылает своим клиентам купоны, адаптированные под индивидуальные предпочтения, McDonalds создает рестораны с учетом особенностей локальных рынков, а Heineken генерирует персонифицированные рекламные сообщения.

Но не маркетингом единым. Упорядоченные и должным образом обработанные данные дают возможность просчитать потенциальные риски для грузов, как это практикует Amazon, прокладывать новые маршруты авиасообщений, определять эффективность лечения и даже прогнозировать ураганы и стихийные бедствия за несколько дней до возникновения угрозы.

Итак, с пользой Big Data для современного мира мы определились. А как насчет освоения профессии Big data engineer, которой интересуются многие, мечтающие о карьере в IT?

Вход в мир больших данных овеян большим количеством мифов, развенчать или подтвердить которые нам поможет Марьян Федив, Senior Big Data engineer из Львовского офиса ЕРАМ. Марьян работает с Big Data с 2016 года и принимает активное участие в подготовке специалистов по этому направлению.

Миф №1. Делать первые шаги в Big Data чрезвычайно трудно и к новичкам выдвигают «космические» требования.

Да, это правда. Хотя бы потому, что «вход» в специализацию невозможен без знания трех языков программирования - Java, Scala и Python. ОК, чтобы не слишком пугать с самого начала, уточню – одним из языков нужно владеть досконально, а два остальных знать на уровне понимания синтаксиса и умения прочесть код.

Почему это важно? Представьте себе Big Data проект в виде совокупности взаимозависимых блоков, каждый из которых использует собственную технологию. Одна их них может быть написана на Python, а другая - на Java, и для того, чтобы дописать какую-либо функцию, нужно владеть именно этим языком.

К перечню требований сразу добавляйте знания SQL и как минимум одного из трех самых мощных Cloud провайдеров – AWS, Google Cloud или Azure.

На владении английским языком на уровне не ниже В1+ я даже не буду заострять внимание, так как это базовое требование для каждого IT-специалиста, независимо от направления.

Я начинал с Java, а после переквалифицировался в Big Data инженера. По собственному опыту могу сказать, что после определенного этапа становится легче, поскольку многие технологии и инструменты похожи. Но недаром руководитель практики Big Data Львовского офиса ЕРАМ встречает новых людей в команде словами: «Welcome to premier league».

Миф №2. Big Data инженеру необходимы углубленные знания математики.

На самом деле это утверждение возникло из-за путаницы ролей Big Data инженера и Data Scientist. Последние оперируют значительно меньшим объемом данных, но им действительно нужно досконально знать математику для построения математических моделей на основе данных, которые собрали и упорядочили Big Data инженеры. Эти две специализации совсем разные, как по задачам, так и по стеку технологий, поэтому в реальной жизни их практически никогда не совмещает один человек.

Big Data – это не столько об объеме данных, сколько о ценности, которую они – должным образом собранные, систематизированные, обработанные и проанализированные – дают бизнесу и обществу. Замечу, что в мире постепенно отказываются от употребления термина Big Data, поскольку один и тот же объем данных может быть большим для одной компании, но незначительным для другой. Популярность приобретают термины Data проект, Data engineer.

Миф №3. Big Data инженеры выдают готовые решения для собственников бизнеса на основе анализа данных.

В реальности 70% работы Big Data инженера – это сбор данных клиента и объединение разрозненных частей информации в единую систему. Представьте себе, например, слияние двух розничных сетей, у каждой из которых есть собственная система физических и интернет-магазинов. Задача Big Data инженера – интегрировать все существующие системы, собрать все данные и привести их к «общему знаменателю». Идентифицировать все учетные записи, «подтянуть» историю покупок, чтобы в дальнейшем на основе этих данных можно было бы выстроить рекламную кампанию товаров, которые с большой долей вероятности заинтересуют именно этого клиента.

Итак, если вы хотите узнать больше о направлении Big Data, просмотрите короткое, но содержательное ВІДЕО, которое станет вашим первым гидом, а тем, кто уже определился с профессией, рекомендую прочитать книгу “Hadoop. The definitive guide”.