Куда направить энергию информационного взрыва?

Опубликовано: 08.03.2023

После того как Джордж Буш покинул в январе Белый дом, в Национальный архив, по данным Financial Times (FT), отправилось 140 терабайт информации, наработанной его администрацией за два президентских срока. Много ли это? В одном терабайте — 1024 гигабайта, а в гигабайт вмещается 300 книг объемом c «Войну и мир». То есть команда Буша-мл. за восемь лет настрочила, насчитала, наговорила и наснимала файлов, в которые можно уместить 42 млн экземпляров романа — по одному с каждой российской семьи. Показатели еще более впечатляют, если сравнить их с данными по администрации Билла Клинтона, после которой архивировать пришлось в 50 раз меньше информации — от силы 3 терабайта. Откуда такой бурный рост — Буш расплодил бюрократов? Не без того. Одни меры по усилению контроля после событий 11 сентября чего стоят. Но главная причина все же в другом.

Белый дом подвергся той же напасти, что и весь цивилизованный мир: происходит информационный взрыв, то есть увеличение потоков информации в геометрической прогрессии, почти в 1,5 раза каждый год. Если так дальше пойдет, то наследие Барака Обамы, случись ему продержаться те же два срока, придется измерять уже петабайтами (1024 терабайта). Весь мир в 2007 г., продолжает FT, создал 281 экзабайт (1024 петабайта) информации. В этом году такое же море букв, цифр, графиков и т. п. планета сгенерирует уже в начале июня. Что делать со всей этой информационной вакханалией?

Хранить

Директор научно-исследовательской лаборатории Hewlett-Packard (HP Labs) в России Владимир Полутин — один из тех, кто наряду со специалистами из IBM, Hitachi Data Systems и других ведущих IT-компаний как раз и занимается проблемами, связанными с информационным взрывом. Причем на своем собственном рабочем месте Полутин инфовзрыва пока не ощущает. До перехода в HP в ноябре 2007 г. он работал исполнительным директором Центра разработки программного обеспечения Motorola, штат которого достигал 750 человек. Тогда, вспоминает Полутин, он получал по 200-250 электронных писем в день, а сейчас, возглавляя коллектив всего из нескольких десятков исследователей, — порядка сотни. Но расслабляться нельзя: если входящую информацию не фильтровать, скоро ее станет на порядок больше.

Добро еще, когда поступивший набор букв-цифр — допустим, сведения о поставках комплектующих — удается классифицировать, снабдить специальными метками и поместить в базу данных, где информацию легко отыскать. Но не все отдают себе отчет, рассказывает Полутин, что сейчас резко растет и объем так называемой неструктурированной информации — такой, которую по полочкам не разложишь. Компания Coleman Parkes Research провела в Европе исследование (опрошены 501 IT-директор и 519 руководителей бизнес-подразделений), которое выявило: только один из восьми респондентов полагает, что более 50% информации в его организации — это неструктурированные данные, а большинство уверены, что их порядка 20-30%. Тогда как сторонние аналитики называют цифру 70%. И нет четкого представления, куда девать все эти письма, аудио- и видеофайлы, записи из блогов. Может быть, уничтожить? Тем более что, как утверждает Полутин, если информация, поступающая на предприятие, не востребуется в течение 18 часов, вероятность ее дальнейшего использования стремительно снижается. Возможно, она вообще уже никогда никому не понадобится.

Уничтожать информацию нельзя, считает Полутин. Для бизнеса это имеет практический смысл. Вот вы заметили, что кто-то использует ваши изобретения или находки дизайнеров, разрабатывавших фирменный стиль, — как доказать, что идеи незаконно скопированы, если информация о них уничтожена за давностью лет? У научных сотрудников другой мотив: все данные нужно сохранять потому, что мы сейчас, возможно, просто не умеем их анализировать. Проводится огромное количество химических, биологических, астрофизических экспериментов, и все результаты аккуратно записываются. «Ученые ревностно относятся к собранной информации, — говорит Владимир Полутин. — И если ее отбрасывать, то, например, мы можем пропустить контакт с внеземной цивилизацией».

Хранение данных стоит денег. Поэтому, говорит Полутин, нужно разделять их по актуальности и, соответственно, выбирать носитель: оперативную информацию запоминать во флеш-памяти и на дисках, а для той, которая сохраняется на всякий случай, сгодятся старые добрые магнитные ленты. Стоит исключить дублирование. Стандартная презентация в PowerPoint хранится в корпорациях в среднем в семи экземплярах. Cтолько будущим поколениям не нужно.

Сменить концепцию

С данными для потомков понятно. Но что делать нам самим с ворохом информации, которая валится на голову каждый день? «Ученые задумались о смене парадигмы, — рассказывает Полутин. — Сейчас мы ищем информацию, мы являемся активным агентом, а хочется сделать так, чтобы информация сама искала нас». Нужно объяснить IT-системе, кто вы такой, каковы ваши потребности, — и система начнет вас обслуживать.

Вот как это может выглядеть. Вы проводите деловую встречу, а через час вам в аэропорт. Но если испортилась погода и рейс откладывается, система должна сообщить вам об этом, например, при помощи SМS. У вас появится возможность не сворачивать переговоры в спешке, а продлить и спокойно довести до конца — все лучше, чем тосковать в аэропорту. Но такая система, как говорит Владимир Полутин, «должна понимать, в каком вы контексте, что вам надо». Фантастика?

Нет, вполне реалистичная цель, полагает директор лаборатории HP: «Нас окружает очень много электронных систем, в которых мы зарегистрированы. Если я сейчас должен лететь, то я зарегистрирован в базе данных “Аэрофлота”. А в HP знают мой график». Кто-то просто должен автоматически сопоставить данные из двух баз и оповестить клиента. На взгляд Полутина, это должно быть устройство, близкое к самому пользователю, — его телефон, например. Тут не все просто: нужно еще договориться с авиакомпанией, чтобы она позволяла брать данные из ее базы, не боясь несанкционированного доступа к информации. Тем не менее практические разработки, реализующие новую парадигму, могут появиться уже через пять лет.