Мир стремительно оцифровывается – в электронный вид переводятся не только деловые документы, но и научно-техническая документация, художественные произведения, исторические интерьеры, музейные экспонаты. Электронная версия – гарантия сохранности, несмотря на возможные катаклизмы. А еще оцифровка максимально расширяет общение и ускоряет взаимодействие.
SCAN: Технологии

Оцифровка данных: как проститься с бумажными документами

scan

Сергей Баландюк рассказывает о становлении рынка оцифровки в России и решениях, востребованных сегодня государством, промышленностью и учреждениями культуры.

Объем рынка оцифровки в России оценивается приблизительно в 3 млрд рублей в год. Однако в Интернете крайне сложно найти ориентированные на потребителей услуг сведения о том, что включает в себя оцифровка, как ее заказать, выбрать подрядчика, избежать лишних трат и т.д.

CNews: Как родилась идея бизнеса, и как компания развивалась в течение 24 лет?

Сергей Баландюк: Отправной точкой в 1996 году стала задача оцифровки библиотечных каталогов, в том числе Генерального алфавитного каталога РГБ. Как оказалось, библиотечные карточки – чуть ли не самые сложные для распознавания документы: они могут содержать печатный и рукописный текст, изменения, сокращения и иностранные слова, бывают ветхими и плохо читаемыми. Чтобы ответить на потребность библиотек в создании базовых информационных ресурсов в электронном виде и не выйти за рамки бюджетов, мы разработали уникальные технологии извлечения данных. Именно эти технологии легли в основу бизнес-модели. Столкнись мы тогда с более простой задачей, боюсь, что ЭЛАР в нынешнем виде вы бы уже не увидели.

CNews: Какие еще проекты послужили развитию услуг и технологий?

Сергей Баландюк: Примеров много. Точки роста определялись масштабами проектов, развитием компьютерной техники и программ.

В 2002 году активное расширение добычи полезных ископаемых породило волну запросов на сканирование дел скважин со стороны компаний ТЭК. Эти документы хранятся в регионах, по месту добычи, что заставило нас разработать формат выездных проектов, подразумевающий отправку бригады сканирования с техникой на территорию заказчика. Сегодня большинство работ по сканированию осуществляется по этой схеме, – нам удалось так выстроить регламенты, что выезд на несколько дней бригады с оборудованием обходится дешевле перевозки документов.

Наша рубрика будет еженедельно пополняться статьями, посвященными всем востребованным направлениям оцифровки: проблемам выбора технологий и исполнителей, сценариям организации работ и приемки результатов, способам сокращения стоимости и сопутствующим решениям.

В ближайшее время читайте:

Аутсорсинг или самостоятельная оцифровка? Преимущества подходов для решения задач текущего ввода и залповой оцифровки больших массивов.

– Извечный треугольник: качество, стоимость, оперативность. Можно ли чем-то не жертвовать?

– Как это делается: фоторепортаж с крупнейшей фабрики оцифровки.

Другой значимый момент – безопасность информации. Вспоминаются оперативно-справочные картотеки МВД в 2006 году: граждане увидели результаты этой работы в виде значительного сокращения сроков выдачи загранпаспортов. Для защиты персональных данных в ходе ручной оцифровки мы разработали технологию деперсонализации – нарезки отсканированных изображений на фрагменты, чтобы каждый оператор ввода видел и индексировал только определенный массив (например, имена или даты рождения). Впоследствии эта технология стала применяться для оцифровки всех документов, содержащих конфиденциальную информацию и персональные данные: кадровые дела, книги ЗАГС и т.п.

В 2008 году для реализации проекта ОБД «Мемориал» было разработано программное обеспечение, позволившее привлекать к работе надомных операторов. Более 1500 человек участвовали в создании ресурса, индексируя рукописные документы со своих домашних компьютеров. Сейчас эти технологии называют облачными. Мы умеем оперативно расширять штат под любой проект, организуя работу сотрудников по удаленному принципу из любой точки страны.

Рынок заставляет постоянно развиваться и практически в каждом проекте изменять существующие подходы для снижения себестоимости услуг и, соответственно, затрат заказчика. Например, мы давно хотели расширить перечень работ, которые можно выполнять на территории заказчика, так как это позволило бы обеспечить наивысший уровень безопасности информации и дать уверенность в сохранении коммерческой тайны.

Нам удалось это реализовать благодаря технологиям, придуманным при выполнении нескольких проектов в кредитных организациях. Мы назвали этот формат «СК+», и теперь можем выполнять на территории заказчика не только сканирование, но также классификацию, индексирование и создание подборок определенных видов документов: клиентских досье, договоров и первичной документации. Сейчас развиваются технологии извлечения данных, использующие логику и семантические алгоритмы.

CNews: Какие тенденции сегодня определяют развитие рынка оцифровки?

Сергей Баландюк: Если вы спрашиваете про кризис, то мы, естественно, видим сокращение ИТ-бюджетов. Но при этом рассчитываем, что оцифровку это сокращение затронет в меньшей степени, чем автоматизированные системы. Дело в том, что оцифровка часто обладает более осязаемым эффектом: одни компании с ее помощью

По каждому из этих пунктов коэффициенты ROI прозрачны и убедительны. Что уж говорить про сферу культуры, где создание электронных коллекций – одно из немногих направлений развития и привлечения посетителей.

оперативно высвобождают помещения; другие – наполняют уже внедренные, но «пустые» учетные системы; третьи – ускоряют или просто делают возможным доступ к информации; четвертые – создают страховой фонд.

Наш постоянный штат уже долгое время составляет немногим более 2000 человек. А в периоды пиковых нагрузок он оперативно расширяется за счет привлечения надомных операторов индексирования до 8000 человек, как это было в 2008 и 2015 годах. Благодаря этому нам удается всегда строго следовать согласованному графику и выполнять одновременно 95-100 проектов без задержек по срокам.

CNews: Почему в России так популярна услуга оцифровки? Чем наш рынок отличается от мирового?

Именно простота наведения порядка в электронных документах сделала оцифровку востребованной услугой в сфере управления землей и имуществом: инвентаризация путем проведения комплексных кадастровых работ значительно упрощается предварительной оцифровкой и структурированием информации по объектам в электронном виде.

Сергей Баландюк: Я думаю, сложились несколько факторов. Во-первых, России надо было догонять мировой уровень информатизации, что породило если не взрывной, то лавинообразный рост интереса к оцифровке. Де-факто, рынок пока не на пике роста, поскольку многие госучреждения только сейчас начинают прибегать к оцифровке. Кстати, очень часто интересует не сам факт перевода в электронный вид, а возможность навести порядок в информации – структурировать ее, установить взаимосвязи документов. В бумажных массивах по миллиону листов это был бы титанический труд.

Во-вторых, Россия обладает богатейшим культурным наследием, которому, наконец, стало уделяться особое внимание как одному из базисов развития туризма и формирования положительного имиджа страны на международной арене. Сегодня многие музеи, библиотеки и архивы переводят учетные документы и экспонаты в электронную форму. Из оцифровки книг родился проект Национальной электронной библиотеки. Уникальные работы выполняются в Государственном Эрмитаже, где оцифровываются все фонды, включая интерьеры, которые также являются музейными экспонатами. Не отстают и региональные учреждения, особенно с фондами, касающимися национальной культуры, этнографии и краеведения.

CNews: Вы в большей степени говорите про культуру и государственный сектор. Есть ли спрос на оцифровку со стороны коммерческих организаций?

Сергей Баландюк: Раз уж мы начали, давайте измерять в объемах. В нашем производственном управлении доля заказов коммерческого сектора примерно 25%, а с учетом госкорпораций и государственных предприятий – ближе к 40%. Думаю, такое соотношение имеет и весь рынок.

Органы государственной и муниципальной власти оцифровывают преимущественно документы, соответствующие их отраслевым функциям: оперативные и архивные дела по объектам земельно-имущественных отношений; договоры аренды и обслуживания; технические паспорта объектов коммунальной и дорожной инфраструктуры; судебные дела и решения; актовые записи, карты больных и т.д. В качестве примеров можно привести «олимпийскую» оцифровку архива правоустанавливающих документов администрации г. Сочи; перевод в электронный вид всех книг ЗАГС Калининградской области; оцифровку геологических отчетов в Минприроды Республики Башкортостан. Сейчас выполняются интересные проекты по наполнению ГКН Крыма и Севастополя путем оцифровки регистрационных документов, выданных украинскими властями.

Практически всем интересна оцифровка финансовой, договорной и проектно-сметной документации. Подобные ресурсы создавались для ОМК, СУЭК, «РуссНефти». Многие заказывают оцифровку краткосрочной ретроспективы в рамках создания ОЦО.

В коммерческих организациях, соответственно, спектр сдвигается в сторону перевода в электронный вид документов, скорость доступа и качество анализа которых критически важны для бизнес-направлений.

Организациям финансового сектора важно повышать качество обслуживания клиентов и выполнять требования регуляторов (например, инструкции Банка России от 30.05.2014 №153-И), в связи с чем поступает много запросов на перевод в электронный вид клиентских досье от крупнейших страховых, НПФ и банков. Сегодня мы выполняем оцифровку для нескольких банков топ-100, параллельно решая задачи согласования, хранения и доступа к сформированным электронным досье.

Нередки кейсы по примеру ТАНЭКО, когда формируемый при строительстве электронный ресурс впоследствии становится архивом эксплуатационной документации предприятия.

Другим ключевым направлением, пожалуй, является конструкторская, техническая и эксплуатационная документация. Интерес проявляют абсолютно все производственные предприятия и энергетические компании – оборонная промышленность, Росатом, ВТЗ, «Русгидро», Ленэнерго, «Лукойл», ТНК.

В больших холдинговых структурах также остро стоит задача управления имуществом, что порождает необходимость создания актуальных электронных ресурсов для соответствующих подразделений. Достаточно привести пример «Газпрома».

CNews: Что вы можете сказать про финансовую сторону вопроса? Какова стоимость оцифровки? Есть ли механизмы экономии?

Сергей Баландюк: Оцифровка состоит из двух больших этапов: сканирования и ретроконверсии, то есть извлечения данных. Стоимость сканирования зависит от размера документа и его «сшитости», – понятно, что сканирование сшитых документов – гораздо более трудоемкий и, соответственно, дорогой процесс. Условный диапазон цен – от 1 рубля за страницу А4 до нескольких сотен рублей за отдельные документы формата А0.

Значительный вклад в стоимость также вносят объем массива и территориальная удаленность. Мы имеем обширную сеть филиалов и производственных центров, но в любом случае необходимо либо вывозить документы, либо организовывать выезд бригады сканирования. Потому заказчику выгодно сканировать сразу большие массивы, так как в этом случае доля накладных расходов значительно меньше. Снизить цену можно также, оформив долгосрочное сотрудничество, в ходе которого работы могут осуществляться поэтапно, либо по окончанию определенных периодов, с гарантированно высоким качеством.

Определяющее значение имеет количество извлекаемой информации.

Второй этап – ретроконверсия. Здесь определяющее значение имеет количество извлекаемой информации: если для идентификации организационно-распорядительного документа часто достаточно извлечь номер и дату, то для первичных документов требуется еще наименование контрагента, ИНН, сумма. А с чертежа уже надо извлекать все поля штампа.

Цена ретроконверсии также зависит от возможности автоматического извлечения данных: для снижения стоимости применяются алгоритмы автоматического распознавания. Но в большинстве случаев, – однозначно для рукописного и плохо читаемого текста, – требуется ручной ввод данных. Стоимость в данном случае основана на трудозатратах оператора: гарантированно верный ввод, скажем, поля ФИО, оценивается приблизительно в 2,5 рубля.

CNews: То есть стоимость для каждого реквизита своя? Тогда как рассчитать бюджет?

Сергей Баландюк: Параметры и цена услуг всегда формируется на основании экспертизы документного массива и рассчитывается с использованием группы параметров. Экспертиза – обязательный начальный этап, поэтому в большинстве случаев он бесплатен. Во всяком случае, мы поступаем именно так.