Big data – Архитектура ИТ-решений

Algorithmic Economy

Тонкой корочкой льда покрылось озеро больших данных после того, как старший вице-президент Gartner Питер Сондергаард сказал, что данные немы. Чем больше данные, тем труднее их обработать, а значит и монетизировать. И вообще, не в данных дело, а в алгоритмах их обработки. (См. The Internet of Things Will Give Rise To The Algorithm Economy и видео с гартнеровского симпозиума ). Одним словом «модный тренд» сменился и следующая большая вещь (next big thing) не большие данные, а алгоритмы обработки данных. В первую очередь потоковой обработки.

Но интересно не это. Примечательно то, что за несколько лет бума больших данных мы в своем сознании не поменяли метафору системы для их обработки. Для нас по-прежнему метафорой такой системы является хранилище – резервуар, в который данные заливаются, отстаиваются и затем обрабатываются системами бизнес-аналитики. Тем временем самое интересное – то как и зачем эти данные обрабатываются, остается за границами этой метафоры. Есть отдельные попытки переосмыслить традиционный взгляд. Например, в заметке Cloud-Native Application Architectures я ссылался на 12 факторов новой архитектуры приложений. Один из них IV. Сторонние службы (Backing Services) рекомендует рассматривать базы данных в качестве подключаемого к приложениям ресурса (см. картинку по ссылке). Но для большинства из нас данные остаются неотъемлемой часть приложения их обрабатывающего

Изменение акцентов с данных на алгоритмы не приведет к моментальному изменению технологий, но наверняка изменит наше представление о концептуальной архитектуре информационных систем. Те люди, которых аналитики пророчили на роль data scientist, в новой модели будущего сделаются алгоритмиками(ну или алгоритмщиками). Они не буду плескаться в тазиках с данными, а начнут сочинять задания на их обработку, создавать те самые алгоритмы. А айтишники буду эти задания запускать на большом конвейере массивно-параллельной обработки данных и отгружать уважаемым алгоритмикам выборки с результатами работы их заданий. Похоже на запуск программ в пакетном режиме во времена больших ЭВМ. Мне такая метафора нравится. По крайней мере, аналитики данных начнут описывать что и зачем они с этими данными делают. Но главная задача для ИТ, которую предстоит решить для перехода к такой модели состоит в отделении алгоритмов обработки от самих наборов данных

Вторая половина шахматной доски

Тот энтузиазм, с которым компьютерное сообщество обсуждает сейчас тему Big Data, свидетельствует о том, что они сами не ведают, что творят. Футуролог Рэймонд Курцвейл, известный книжками по технологической сингулярности (гипотетический момент, по прошествии которого, технический прогресс станет настолько быстрым и сложным, что окажется недоступным пониманию см. википедию ) ввел в обиход термин вторая половина шахматной доски. Как известно, изобретатель шахмат попросил в качестве награды положить на первую клетку доски одно зерно, на вторую – два, на третью четыре и т.д. Общее количество зерен на шахматной доске составит 2 в 64 степени без 1, а это очень и очень много. Однако, количество зерен, которые следует разместить на первых клетках шахматной доски, не кажется таким большим. Даже на 32 клетке будет всего 2 гигабайта зерен. Это примерно сто тонн риса. Это полтора современных железнодорожных вагона, предназначенных для перевозки зерна. Термин вторая половина шахматной доски сейчас активно используется в экономике и управлении, например в книжке “Race Against The Machine” By Erik Brynjolfsson and Andrew McAfee. Читать далее Вторая половина шахматной доски

Интерес к управлению данными возвращается

В конце июля – начале августа этого года Gartner выпустил целую серию исследований посвященных управлению данным:

Hype Cycle for Data Management, 2011
Hype Cycle for Master Data Management, 2011
CIO Alert: You Need Information Professionals
и еще несколько статей

Интерес к теме управления данными у Gartner присутствовал всегда, но если раньше в исследованиях преобладали рассуждения о роли управления основными данными (master data management) для успеха SOA или BPM проектов, то сейчас тема данных стала вполне самодостаточной. На вершине пика завышенных ожиданий информационной архитектуры предприятия находится Semantic Web. Правда в мэйнстрим корпоративных информационных систем попадет он еще не скоро. О возможностях использования Semantic Mediawiki для отображения архитектуры предприятия я рассказывал некоторое время тому назад на заседании Клуба архитекторов Microsoft и на SOA мероприятии AHConference Архитектура предприятия в формате Semantic Web Подходят к пику ожиданий: Complex-Event Processing, Enterprise Taxonomy and Ontology Management (Таксономия и фолксономия), Data Services, Enterprisewide Metadata Repositories.

А вот Master Data Management покинул пик ожиданий и начал сползать в котлован разочарований. Т.е. интерес к MDM будет угасать, а недовольство высокой стоимостью MDM решений – расти. На мой взгляд, это совершенно несправедливо, т.к. практической пользы от MDM можно получить существенно больше, чем например от сервисов. Master Data Management – тема не очень новая и не очень сложная. Введение в тему можно почитать в статье Задачи управления мастер-данными Некоторое замешательство могут вызвать русскоязычные аналоги этого понятия «управление основными данными» и «нормативно-справочная информация». Но, в общем и целом большинству людей понятно, что речь идет о синхронизации справочников из различных информационных систем предприятия. Есть транзакционные данные, т.е. записи о конкретных операциях и есть справочники, на которые ссылаются транзакционные данные. Под мастер-данными (основными данными) и понимают справочники в широком смысле, т.е. существительные, отвечающие на вопросы «кто?» (клиенты, сотрудники, партнеры), «что?» (продукты, услуги), «где?» (адреса) и т.д. Наведение порядка в справочниках – задача скорее организационная, чем техническая. Впрочем, технические проблемы, являющиеся в данном случае прямым следствием организационно-политических причин, присутствуют тоже