Поиск в хаосе : Финсайд

В большинстве своем российские компании используют программное обеспечение, которое оперирует числовыми массивами. Но практически нет проектов по автоматизации обработки и структурирования текстов, аудио- и видеофайлов. Хотя основная деятельность организации может включать в себя работу с ними. По словам директора департамента аналитических систем компании «Айти» Дмитрия Романова, доля неструктурированных данных в системах предприятий, как правило, превышает 80% от общего объема информации.

«Букет» болезней. Представьте архив телекомпании – тысячи текстов, фотографий, записей съемок. Теперь вам нужно найти в нем всю информацию о конкретном человеке. За годы существования телеканала он мелькал в нескольких материалах, причем был не главным действующим лицом. Кто-то из сотрудников помнит «где-то я его у нас видел». Архив сформирован по датам и по ключевым словам. Теоретически поиск в нем может занять недели. На практике обычно находится «ветеран», сужающий диапазон дат, а то и точно помнящий, где хранится информация. Гарантии, что подняты все имеющиеся материалы, никто дать не может.

Другой пример – планирование государственных расходов на обязательное медицинское страхование. В этом процессе основную роль играет статистика – количество пациентов, профили и стадии заболеваний, методы лечения. Исходными данными служат амбулаторные карты больных – история болезни, заключение врачей, результаты исследований, в том числе анализы, рентгеновские снимки. Систематизация такой информации ведется вручную – данные по итогам периода заносятся в числовые таблицы. Отсюда большое количество ошибок, трудность консолидации на уровне Минздравсоцразвития. Расходование средств практически не поддается контролю на соответствие действительности.

На практике. Иностранные организации работают с различными программными решениями, которые могут быть как узкоспециализированными, например для поиска изображения, так и широкого профиля, работающими со всеми видами информации (Convera, Fast Search & Transfer). «Система распознавания образов обращается к определенным базам данных, сверяет полученные изображения и сигнализирует об обнаружении, скажем, террориста, – рассказывает Дмитрий Романов. – Есть системы, которые «улавливают» определенные слова в аудиозаписи. Комплексные продукты достаточно «умны», чтобы в море информации проводить точный поиск и анализ данных, принимая во внимание общий смысл документа, разные языки, прощая орфографические ошибки». Область поиска этих решений может не ограничиваться конкретным архивом, а охватывать интернет-портал, электронную почту, различные бизнес-приложения.

МВД РФ установило систему Convera для поиска противоречий и пробелов в более чем 50 тыс. документах, регулирующих деятельность министерства. Самые ранние из них относятся к 20–30-м годам прошлого века. Планируется, что система будет использоваться в двух направлениях. Первое – поиск несоответствий в документах, который будет служить юристам основой для последующего анализа полноты нормативной базы МВД. Второе – получение обратной связи от подведомственных организаций, имеющих непосредственное отношение к правоприменительной практике, например УВД и ОВД.

Журнал «Финанс.» №25 (211) 02 июля — 08 июля 2007 — IT+финансы
Наталья Анищук

Подписывайтесь на телеграм-канал Финсайд и потом не говорите, что вас не предупреждали: https://t.me/finside.