Как объяснить вашей бабушке, что такое Big Data?

Знакомьтесь с нашим экспертом - это Владимир Федорчук, Project Manager в EPAM. С компанией сотрудничает уже семь лет, вообще в ІТ — 16, не считая аспирантуры. Начинал как системный инженер, разработчик, а с 2012 стал Delivery Manager’ом в Big Data. Последние несколько лет Владимир работает на генетических проектах.

Big Data — набор технологий, которые позволяют обрабатывать большие (просто колоссальные!) объемы данных. Их применяют для различных задач: анализа общественного мнения, проектирования городов, обнаружения чрезвычайных ситуаций и (кроме еще массы всего прочего) даже спасения человечества от голода!

Накормить всех

Людям нужно есть, однако еды на всех не хватает. Эту проблему решают разными путями. В 1940-1970 гг. в развивающихся странах внедряли современную агротехнику, создавали высокоурожайные сорта сельскохозяйственных культур, расширяли сферу применения удобрений, пестицидов и новой техники. Весь этот комплекс изменений в сельском хозяйстве получил название “зеленая революция” и коснулся таких стран, как Индия, Мексика, Филиппины, Пакистан, Перу, Колумбия и Нигерия.

Что было дальше? Селекция, научные основы которой заложил еще Чарльз Дарвин. Благодаря ей человечество научилось выращивать множество сортов сельскохозяйственных растений и пород домашних животных с нужными качествами. Казалось бы, проблеме постепенно приходит конец, but no. Даже сегодня, по данным Всемирной организации здравоохранения около 820 миллионов людей во всем мире голодают.

Без ГМО (не обойтись)

И пока твоя бабушка, выбирая продукты в супермаркете, внимательно изучает этикетки и ищет те, которые “без ГМО”, ученые возлагают на генетическую модификацию большие надежды.

лллллл

Эта технология позволяет внедрять в структуру растений гены, способные противостоять неблагоприятному климату, повысить урожайность, увеличить сроки хранения.

Одним из преимуществ ГМО является также снижения потребности в пестицидах. Не обязательно поливать картошку ядом для насекомых, если есть возможность вырастить такую, которую насекомые не станут есть. При этом, можно подобрать комбинацию, которая будет вредна для насекомого, но не для человека.

В развивающихся странах существует огромная проблема — дефицит витамина А. Миллионы детей умирают, не достигнув 5-летнего возраста, и даже те, кто выживают, часто слепы. Для решения это проблемы ученые разработали золотой рис.

Золотой рис — генетически модифицированный сорт риса, в зернах которого содержится много бета-каротина. В приготовленном виде содержит витамин А.

Над подобными проектами работают и в ЕРАМ, но чтобы понять, с какими данными имеют дело разработчики, углубимся немного в генетику.

Я программа, и ты программа

В каждой клетке живого организма есть хромосомы, которые хранят дезоксирибонуклеиновую кислоту или ДНК. Она заключает в себе генетический код, который говорит нам, как развиваться и функционировать, а также передается потомкам. ДНК имеет вид двойной спирали, которая состоит из нуклеотидов. А ген — это последовательность нуклеотидов, кодирующих определенный признак (например, цвет глаз). Нуклеотиды содержат азотистые основы, их всего четыре: аденин, гуанин, цитозин и тимин (А, Т, Г, Ц). Это и есть код, которым написано все живое в природе.

Sci-bro feat. EPAM: як пояснити твоїй бабці, що таке Big Data?

ДНК — программное обеспечение живых существ. Программы на компьютере состоят из двоичного кода: нулей и единиц. Здесь имеем четыре буквы: А, Т, Г, Ц.

Программный код записывается в виде архивов, генетический — сжимается в хромосомах, которые являются, фактически, жесткими дисками с информацией. В природе существует и такое явление, как горизонтальный перенос генов, свойственное бактериям, что можно считать аналогом open source. К тому же, и тут, и там — не без вирусов. Когда вирус попадает в клетку, он вводит ей свой код, и клетка начинает делать, что ему заблагорассудится (а не то, что она до сих пор спокойно себе делала).

ДНК можно полностью оцифровать, причем с довольно высокой точностью (99,9%). Однако, нужно знать, куда затолкать такие огромные объемы данных. Ведь для работы с десятками хромосом, тысячами генов и миллиардами нуклеотидов обычными инструментами не обойтись.

ДНК на моей флешке

Проекты EPAM’а касаются секвенирования генома растений и обработки этой информации с помощью Big Data.

Sci-bro feat. EPAM: як пояснити твоїй бабці, що таке Big Data?

Секвенирование ДНК — определение последовательности нуклеотидных основ ДНК (А, Т, Г, Ц). Нуклеотиды маркируют разными цветами и копируют эти фрагменты через секвенсор. С помощью специального софта ученые могут их проанализировать.

Мы получаем данные от секвенс-машин и загружаем их в базу. Существует много разных форматов, их можно сконвертировать. Далее эти данные нужно очистить, поскольку не все из них подходят нам для работы. Основные наши задачи — загрузить данные и отдать их в таком виде, чтобы ученые могли с ними работать.

Более минорные задания относятся к параллелизации данных, то есть разработке таких алгоритмов, чтобы одна загрузка не мешала другой. Данные необходимо провалидировать — насколько они корректны. Дальше с ними работает уже пользователь: извлекает из них нужные ему участки и идентифицирует гены.

Информация хранится в хабах или дата лейках (data lakes), и это наиболее удачное решение для такого типа данных.

Урожай собирают дважды в год. Чтобы все это обработать, нужны большие мощности. Чем хороши клауды: мы запустили две сотни компьютеров, они эти данные обработали и выложили в облачную среду. Это значительно более дешевое решение для эпизодических вычислений, так как не требует постоянно используемых серверов.

Ежедневно data lake загружает данные с различных систем. Загрузка длится 3-4 часа, еще 5 часов данные обрабатываются. Поскольку информации очень много, клиент может применять машинное обучение для работы с ней. Так можно спрогнозировать, какие растения лучше скрещивать между собой, чтобы они хорошо прорастали в заранее заданных условиях, таких как температура, влажность, почва.

Это не покончит с проблемами голода моментально, однако выглядит правильным и наиболее оптимальным решением. Без технологий Big Data работа с данными такого типа происходила бы очень медленно и требовала бы много времени и ресурсов.

А данных, к тому же, становится все больше и больше…

Поэтому, в следующий раз, когда твоя ба придет из супермаркета, расскажи ей, какие громадные массивы данных обработали и как выводили новые сорта, прежде чем эти румяные сочные яблочки появились на полке.