Algorithmic Economy

круговорот-воды-в-природе-схема-Тонкой корочкой льда покрылось озеро больших данных после того, как старший вице-президент Gartner Питер Сондергаард  сказал, что данные немы. Чем больше данные, тем труднее их обработать, а значит и монетизировать. И вообще, не в данных дело, а в алгоритмах их обработки. (См. The Internet of Things Will Give Rise To The Algorithm Economy и видео с гартнеровского симпозиума ). Одним словом «модный тренд» сменился и следующая большая вещь (next big thing) не большие данные, а алгоритмы обработки данных. В первую очередь потоковой обработки.

Но интересно не это. Примечательно то, что за несколько лет бума больших данных мы в своем сознании не поменяли метафору системы для их обработки. Для нас по-прежнему метафорой такой системы является хранилище – резервуар, в который данные заливаются, отстаиваются и затем обрабатываются системами бизнес-аналитики. Тем временем самое интересное – то как и зачем эти данные обрабатываются, остается за границами этой метафоры. Есть отдельные попытки переосмыслить традиционный взгляд. Например, в заметке Cloud-Native Application Architectures я ссылался на 12 факторов новой архитектуры приложений. Один из них IV. Сторонние службы (Backing Services) рекомендует рассматривать базы данных в качестве подключаемого к приложениям ресурса (см. картинку по ссылке). Но для большинства из нас данные остаются неотъемлемой часть приложения их обрабатывающего

Изменение акцентов с данных на алгоритмы не приведет к моментальному изменению технологий, но наверняка изменит наше представление о концептуальной архитектуре информационных систем. Те люди, которых аналитики пророчили на роль data scientist, в новой модели будущего сделаются алгоритмиками(ну или алгоритмщиками). Они не буду плескаться в тазиках с данными, а начнут сочинять задания на их обработку, создавать те самые алгоритмы. А айтишники буду эти задания запускать на большом конвейере массивно-параллельной обработки данных и отгружать уважаемым алгоритмикам выборки с результатами работы их заданий. Похоже на запуск программ в пакетном режиме во времена больших ЭВМ. Мне такая метафора нравится. По крайней мере, аналитики данных начнут описывать что и зачем они с этими данными делают. Но главная задача для ИТ, которую предстоит решить для перехода к такой модели состоит в отделении алгоритмов обработки от самих наборов данных

Algorithmic Economy: 4 комментария

  1. Кстати, с оторванной от данных алгоритмикой тоже не всё просто. Там два уровня: некоторые классы алгоритмов (например, алгоритмы обучения) становятся commodity, а некоторые классы уже не столько алгоритмы, сколько алгоритмические архитектуры (например, когнитивные архитектуры общего вида и собственно приложения). Я подробней написал про эту архитектурную многоуровневость алгоритмики на примере робототехники, начиная с третьего абзаца тут: http://ailev.livejournal.com/1233729.html

    1. Опасаюсь, что даже с задачей “отрывания” вычислений от данных справиться будет не просто. Сначала сопротивляться будут айтишники, потому как нельзя же делать приложение без собственной БД, а затем пользователи, которым работу работать надо и “алгоритмизировать” её это значит себя же этой работы лишить. Но если эту задачу удастся как-то сдвинуть в организациях с мертвой точки, то в алгоритмике, безусловно, будет своего рода расслоение на алгоритмы тиражируемые более-менее легко и на то, что практически не воспроизводится.
      Спасибо.

      1. Там ещё один неожиданный аспект — это expression problem (возможность независимого роста кучерявости данных и разномастности алгоритмов их обработки). Сделать приложение, которое не нужно перекомпилировать каждый раз, когда меняется модель данных, которое оно обрабатывает, не менее трудно, чем базу данных, модель данных которой не нужно менять каждый раз, когда над ней реализуют новый алгоритм. В программировании этот вопрос активно обсуждают (например, multiple dispatch является одним из способов решения этой проблемы, это уход от объект-ориентированности), а вот выход за пределы программирования приводит к потере этой дискуссии. И я знаю только одну компанию из Омска, которая как-то решила этот вопрос “базы алгоритмов” для базы данных — http://hwdtech.ru/ (см. чуть подробней про это в первом пункте http://ailev.livejournal.com/1218155.html).

  2. Нас пугают, что объем информации растет вдвое каждые 4 года, а скоро будет расти вдвое каждый день. Ценность же информации, а равно как и драйвер к увеличению объемов ее хранения, – это способность и желание людей эту информацию обрабатывать. Вполне возможно, что если текущая ситуация с наличием и эволюцией аналитиков/алгоритмистов не изменится, скорость накопления тоже может серьезно замедлится.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *