Утечки персональных данных: опасный путь из «бумаги» в «цифру»

Масштабные утечки персональных данных россиян в свете последних геополитических событий сделали проблему сохранности этих данных задачей государственной важности. Попытаемся разобраться в том, каким образом в России данные из паспортов граждан и прочих бумажных документов оказываются переведены в идеальный для утечек электронный вид. Масштабный рынок, значимую часть которого занимают технологически непрозрачные, иногда «наколенные» ИТ-сервисы и на котором инфантильность заказчиков распознавания клиентских документов соревнуется с беспечностью организаторов упомянутых сервисов. Все это – при изрядном несовершенстве регулятивной нормативной базы, разумеется.

Утечки слились в поток

Слышать об утечках персональных данных клиентов российских компаний можно было все последние годы. Но именно в 2022 году подобные инциденты стали одним из главных технологических и социальных вызовов. Всего с февраля 2022 года произошло более 140 утечек персональных данных, сообщил Роскомнадзор. По данным ведомства, в сеть попало более 600 миллионов записей о гражданах России. Это примерно по четыре записи на каждого гражданина России с учетом общей численности населения страны в 147 миллионов человек. Очевидно, что в этой статистике учитываются записи наиболее активных пользователей интернет-сервисов, которые утекли из различных баз данных не по одному разу.

Фрагментарные сообщения об утечках в первые месяцы 2022 года превратились в настоящий информационный поток: новостные ленты и Telegram-каналы буквально запестрели пугающими заголовками.

Напомним о самых громких инцидентах. В марте стало известно об утечке данных 58 тысяч клиентов сервиса доставки питания «Яндекс.еда». В мае слитую базу злоумышленники дополнили информацией с привязкой к конкретным гражданам из системы ГИБДД, баз данных компаний СДЭК, Wildberries, «Билайна» и других источников.

Также в мае жертвами утечки стали клиенты сети медицинских лабораторий «Гемотест» – на черном рынке в «даркнете» были выставлены 554 миллионов результатов анализов с набором сведений о людях, которые их сдали. В этом же месяце в сети появилась база в 250 миллионов строк с данными о заказах клиентов сервиса доставки еды Delivery Club. Эта утечка затронула даже банковские реквизиты пользователей.

В июне злоумышленники слили в открытый доступ таблицу из 109,3 тысяч строк со сведениями из внутренних аккаунтов сотрудников Ростелекома. Чуть позже в сети была замечена база в 713 тысяч строк с данными клиентов «Умного дома» все того же Ростелекома.

В июле «Коммерсантъ» сообщил о том, что в открытый доступ могли попасть персональные данные 25 миллионов клиентов и 30 тысяч контрагентов логистического оператора СДЭК.

В начале августа Telegram-канал «Утечки информации» распространил сообщение о том, что в Сети оказались данные участников программы лояльности оператора связи Tele2. Речь шла о базе в 7,5 миллионов строк, в которых содержится ФИО (иногда лишь имя), номер телефона, адрес электронной почты и пол.

В начале октября 2022 года стало известно об утечке данных клиентов сети алкомаркетов «Красное & Белое». В середине ноября зафиксирована утечка данных 4 миллионов абонентов интернет-провайдера «Дом.ру». В декабре 2022 года стало известно об утечке данных 900 тысяч пользователей туристического поисковика Level.travel и сотен тысяч клиентов ретейлера «ВкусВилл».

И это лишь краткий и очень выборочный список инцидентов, крайне далекий от полноты.

Международный аспект

Необходимо подчеркнуть, что ситуация с сохранностью конфиденциальных данных наших соотечественников дополнительно усугубилась с конца февраля 2022 года. Статистика сугубо корыстных хакерских взломов приросла атаками «патриотов» и спецслужб – в немирное время утечки информации могут лишить человека не только денег, но и жизни.

По итогам марта по сравнению с февралем количество кибератак на российские ресурсы увеличилось минимум в четыре раза. Об этом ТАСС в апреле 2022 года заявил заместитель технического директора группы компаний ИСА, курирующий центр мониторинга и реагирования на инциденты компьютерной безопасности, Никита Кулагин.

По июньским данным Сбербанка, на тот момент с начала конфликта в результате кибератак были украдены данные 65 миллионов россиян. Не менее 13 миллионов банковских карт были скомпрометированы, ущерб из-за перевыпуска этих карт составил не менее 4,5 миллиарда рублей.

В июне российская компания Group-IB, занимающаяся информбезопасностью, зафиксировала рекордную выкладку в даркнете баз данных отечественных компаний – более 50. Group-IB связала с украинскими событиями.

По данным аналитиков, базы данных 19 наиболее крупных утечек содержали 616,6 миллионов строк. Практически все базы включали имена клиентов, их телефоны, адреса, даты рождения, паспортные данные, подробности заказов или результаты медицинских анализов.

В июне же появились сообщения о том, что в перешедшем под контроль российских войск Бердянске была раскрыта сеть колл-центров мошенников, которая располагала данными 20 миллионов россиян и действовала по согласованию с властями Украины, поддерживалась из Нидерландов, Германии, США и Эстонии.

Проблема централизации

По мнению заместителя директора Института проблем передачи информации РАН имени А.А. Харкевича Кирилла Иванова, произошедшие утечки клиентских данных сегодня наглядно демонстрируют, что клиентские сервисы (заказа такси, доставки еды и товаров, покупки ОСАГО и ДМС, подбора кредитов, а также маркетплейсы и агрегаторы) собирают о пользователях слишком много избыточной для своей основной деятельности информации.

«Если бы сервисы относились к сбору, хранению и передаче данных пользователей «сдержанней», то в случае утечки в интернет, например, данных из сервисов по доставке еды, в сети оказались бы только телефон, локация на уровне района и количество успешных оплат заказов, – рассуждает он. – В сервисе такси – телефон, та же локация, что-то вроде среднего расстояния поездки и фактор оплаты. Понятно, что такие данные вряд ли могут нанести большой вред кому-то в случае их разглашения».

Рассматривая проблематику централизации данных (как в качественном, так и в количественном срезе) невозможно не вспомнить, что в начале июля 2022 года в интернете на продажу была выставлена база с данными свыше 1 миллиарда граждан Китая. Она содержала имена, адреса, даты и места рождения, идентификационные и мобильные номера и проч.

Ценность не коррелирует с ответственностью

Как отмечает партнер юридической компании «Легато» Андрей Жильцов, личные данные пользователей соцсетей, покупателей товаров на маркетплейсах и т. д. сейчас становятся крайне ценной информацией для бизнеса.

«Если еще 10 лет назад бизнес был заинтересован в сборе такой информации (с этой целью работали, в том числе соцсети), то сейчас основная задача – эту информацию уберечь, – полагает он. – Следовательно, инвесторы и деньги сосредоточены именно в этих сферах».

Однако анализ российской судебной практики показывает, что чаще всего компенсация морального ущерба в случаях утечек может быть необоснованно низкой, что не только не возмещает причиненный вред, но и не позволяет возместить расходы на юристов. «По сути, моральный вред граждан остается без какой-либо защиты и не позволяет привлекать к должной ответственности бизнес, который потерял чужие персональные данные, – отмечает Жильцов. – Возможно, коллективные иски изменят данную ситуацию, однако часто у граждан нет возможности объединяться с другими «потерпевшими», поскольку нарушение режима конфиденциальности данных может быть единичным, а не массовым случаем».

Как утекают данные

Все описанные утечки связаны с неправомерной передачей или хищениями данных в цифровом виде. Какие-то данные были сгенерированы в таком виде изначально (например, человек заполнил анкету на компьютере), а часть была трансформирована в «цифру» с бумажных носителей, зачастую рукописных.

И здесь мы подходим к описанию одной из ключевых проблем безопасности персональных данных современности. При переносе данных с бумаги в цифру операторам баз (хозяевам сервисного бизнеса) очень часто приходится привлекать к этому процессу посторонние ресурсы – технические или человеческие, которые рискуют оказаться слабым звеном, генератором утечек.

Использование ресурса может быть абсолютно безопасным, если задействована полностью автоматизированная и изолированная информационная система, развернутая на территории заказчика, без связи с интернетом.

Такие программные решения на рынке существуют. В частности, в России их предлагают Abbyy, Kofax, Smart Engines и десятки интеграторов, которые внедряют системы на базе продуктов этих компаний. Правда, в связи с американо-европейскими санкциями деятельность американской Kofax и ставшей американской компанией Abbyy в России попала под ограничения (на какой срок, покажет время). Сейчас торговлю американскими продуктами Abbyy ведет компания Content AI (ООО «Контент ИИ»), которая с июля 2022 года на 100% принадлежит турецкому юридическому лицу. Разрабатываемые этими компаниями решения очень наукоемкие с точки зрения технологий и разработки; они требуют внедрения и сопровождения. По сути, это цена безопасности работы с данными клиентов.

Сегодня рынок столкнулся с ситуацией, в которой использовать решения, безопасные с точки зрения технологий работы с изображениями документов, в России многим кажется неоправданно дорогим. В стремлении сэкономить средства многие заказчики идут на рынок в поисках более дешевых решений, и, конечно же, гибкий рынок готов их предложить.

В качестве альтернативы упомянутым полностью автоматизированным системам в России для распознавания и оцифровки «бумаги» существует класс сервисов, сочетающих использование искусственного интеллекта (ИИ) с тем или иным вмешательством человека, как правило, для верификации (уточнения, проверки) распознанных данных и полностью ручного ввода данных.

Сервисы распознавания и их клиенты

Один из известных на рынке сервисов распознавания продвигает российская компания «Биорг», резидент инновационного центра «Сколково». Про процесс оцифровки документов компания сообщает, что он происходит в два этапа. Сначала документы обрабатывают нейросети (ИИ), а значения, распознанные с низкой уверенностью, например, рукописный текст, верифицируют удаленно подключенные к платформе операторы. Персональные данные клиентов, заверяет «Биорг», защищены шифрованием и механизмом деперсонализации – при обработке документы «разрезаются» нейросетями на фрагменты, а затем неким образом собираются обратно.

Представленный на сайте компании список клиентов весьма обширен и авторитетен, однако большая часть опрошенных организаций из этого списка аспекты своей работы с «Биоргом» не прокомментировала. В частности, не ответили на запрос Sbi Bank (по данным «Биорга», он распознавал паспорта), Best Efforts Bank (анкеты по форме W-8BEN), оператор связи Теle2 (первичные бухгалтерские документы), Россельхозбанк (паспорта и другие документы для оформления ипотеки), «Северсталь» (паспорт и документы для трудоустройства), Уральский банк реконструкции и развития (паспорта и другие документы для оформления ипотеки), оператор связи «Филанко» (первичные бухгалтерские документы), «Столичное агентство по возврату долгов» (документы для суда), Московская биржа (трудовые книжки).

В Центробанке, в отношении которого «Биорг» указывает, что занимается «обработкой персональных данных клиентов, а обработкой результатов анкетирования физических лиц», сообщили, что клиентов-физлиц у банка нет в принципе, а если речь идет о каких-либо клиентах-юрлицах, то подобные вопросы Банк России никогда не комментирует.

В финансовой группе БКС, в отношении которой «Биорг» описал проект по распознаванию паспортов клиентов, прокомментировать аспекты взаимодействия отказались.

Сотрудничество с «Биоргом» из числа более чем десяти респондентов в явном виде подтвердили только в Национальном расчетном депозитарии, однако впечатлениями от этого сотрудничества не поделились.

Еще один российский сервис распознавания предлагает компания Dbrain, также резидент «Сколково». Общий принцип совместной работы ИИ и людей здесь аналогичен. «В случае обращения к решению Dbrain в облаке сервис использует установленные законом методы декомпозиции и анонимизации, – сообщает компания на своем сайте. – При декомпозиции множество записей персональных данных разбивается на несколько подмножеств. Dbrain алгоритмически разрезает изображение документа на отдельные части, каждая из которых не содержит персональных данных. А при использовании метода анонимизации вырезанные поля документа кодируются так, что специалисты, работающие с частью изображения, не знают, с какой частью какого документа они работают».

Клиенты Dbrain в целом оказались чуть более контактными, хотя большая часть респондентов из списков на сайте компании и на ее странице на портале «Сколково» также на запросы не отреагировала. Среди них – «Маст страхование грузовиков» (паспорт, водительское удостоверение, ПТС, СТС), компания по кредитованию и автострахованию «eКредит» (паспорт, водительское удостоверение, СНИЛС, анкеты), аналитик больших данных SpectrumData (паспорт и водительское удостоверение), страховая компания «Пари», банк «Хлынов», банк БЖФ.

Компания по онлайн-кредитованию Cashdrive относительно конкретики сотрудничества с Dbrain сообщила, что «запрошенная информация является коммерческой тайной, не может быть разглашена третьим лицам».

Языковая онлайн-школа Skyeng указала, что работала с Dbrain очень давно. «Настолько давно, что почти никто из текущей команды не может прокомментировать что-либо по этому сотрудничеству, – добавили респонденты. – Единственное, что можно сказать точно, – мы никогда не собирали сканы паспортов у наших клиентов и уж тем более не оцифровывали их».

Представитель «Страхового дома ВСК» подтвердил факт сотрудничества с Dbrain: «Сервис является частью единой комплексной системы по автоматизированному оформлению договоров для автопарков, которая была введена в эксплуатацию в ВСК в 2021 году. Реализация данной системы позволила сократить человеческие трудозатраты на оформление парковых договоров в 3,5 раза. Технология обеспечивает распознавание ПТС и СТС. Фактический рабочий уровень распознавания после года использования составляет около 80%. В значительной мере определяется качеством сканов. При реализации системы было проведено пилотное тестирование значительного количества технологий. Сервис Dbrain объективно показал лучшие результаты для решения нашей задачи».

Также сотрудничества с Dbrain подтвердили в компании «Ренессанс страхование», сообщив, что распознавание касается как печатных документов (владения автомобилем, паспортов, водительских удостоверений), так и рукописных (извещениях о ДТП, документов «компетентных органов», заявлений клиентов и т. п.).

Другой российский сервис ИИ-распознавания с верификацией операторами-людьми продвигает компания «Тксэт». На запрос авторов материала клиенты, указанные на сайте компании, на вопросы о специфике взаимодействия с «Тксэт» не ответили. Среди них – сеть магазинов одежды «Фамилия» (товарная накладная, счет-фактура, УПД), нефтегазохимическая компания «Сибур» (первичные и деловые документы), сеть магазинов «Метро» (паспорт и документы для трудоустройства), курьерская служба «EMS Почта России» (адреса людей).

Еще одна компания, предлагающая сервис распознавания, – IDX, дочерняя структура Фонда развития интернет-инициатив (ФРИИ) и резидент «Сколково». В техническом смысле она не вполне самостоятельная и позиционирует себя как партнер Dbrain. «Если клиентам платформы нужно распознать документы, алгоритмы Dbrain извлекают данные, а IDX подтверждает их подлинность», – сообщает о себе компания.

Представители IDX специфику работы с Dbrain описали следующим образом: «Они не оцифровывают документы; мы им уже поставляем цифровые копии документов, в частности, паспорта, а они распознают поля и их содержимое и возвращают нам».

По такой же сервисной модели были запущены сервисы распознавания Directum Ario (компании Directum), в котором для ввода данных задействованы облачные операторы, и платформа Soica (проект компании Softline), в которой для распознавания заявлено применение сервиса компьютерного зрения для анализа изображений Yandex Vision, и сервис EasyDoc компании ITFB Group. Пользователям типовых конфигураций 1С предлагается распознавать паспорта и других удостоверяющих документов отправляя сканы и фотографии документов в сервис АДС-Софт.

И это далеко не все сервисы распознавания, которые сегодня представлены в России. Вся информация о принципах работы сервисов взята из открытых источников и с официальных сайтов компаний.

Пионеры рынка отмечают, что сегодня в этот бизнес с идеей быстрого импортозамещения идут все новые и новые игроки. Сейчас одних только сервисов по извлечению данных из изображений первичных бухгалтерских документов, содержащих как минимум коммерческую тайну, при быстром поиске в интернете находится более десятка.

«Механический турок» и вопросы оппонентов к сервисам распознавания

Основные претензии, которые въедливые адепты информационной безопасности предъявляют к описанным сервисам, связаны с закрытостью сведений относительно того, как именно и в каких пропорциях ИИ делит свои обязанности с людьми.

Критики сервисов любят вспоминать классическую историю «Механического турка» (Mechanical Turk). С 1770 по 1884 годы по Европе гастролировал умный механизм для игры в шахматы, витринная часть которого представляла собой манекен «турецкой» наружности. Аппарат обыгрывал большую часть оппонентов, включая Наполеона и Франклина. Приоткрыв нужные дверцы, можно было увидеть сложнейший шестереночный магазин. Но в итоге гениальная техническая новинка оказалась мистификацией – внутри все годы гастролей сидели живые операторы из числа сильных шахматистов.

В контексте этой истории критики сервисов склонны отмечать, что в силу закрытости алгоритмов их искусственный интеллект может не играть в них решающей роли, а значительная часть работы (далекая от заявленных единиц процентов) делается людьми «на коленках». Многие клиенты отмечают, что решения вендоров в части обработки персональных данных, для них – «черный ящик».

В Dbrain на запрос об открытости ИИ-алгоритмов сервиса (может ли потенциальный заказчик прийти куда-либо и «посмотреть», как именно происходит распознавание) не ответили.

В «Биорге» вопросы оценили как очень «правильные и актуальные», однако без соблюдения определенных формальностей предоставить ответы не смогли.

В «Тксэт» ограничились указанием на то, что компания – «изначально оператор персональных данных, т. к. в структуре холдинга есть крупнейший российский КЦ «Телеконтакт». «За утечку информации несем ответственность в соответствии с законодательством РФ», – отметил он, прибавив, что по правилам информационной безопасности «не имеет право давать больше информации при запросах с незнакомых емайл».

На просьбу к специалистам, занимающихся вопросами информационной безопасности, экспертно оценить, насколько работа сервисов «Биорг», Dbrain и «Тксэт» представляется безопасной с точки зрения сохранности данных, в Group-IB сообщили, что сделать этого не смогут.

В компании InfoWatch Натальи Касперской также ответили, что помочь не смогут. «Мы не знаем, по каким алгоритмам работают и какие средства защиты информации имеют указанные компании, – указали респонденты. – Особенно в части применения технологий искусственного интеллекта (что вызывает большие вопросы)».

Что лучше: ИИ или человек

Сегодняшние ИИ-алгоритмы распознавания справляются со своими задачами относительно неплохо. Продвинутый алгоритм отличается от кустарного отношением идеально распознанных данных к сведениям, которые требуют верификации (уточнения).

Как отметил эксперт рынка безопасности, в идеале сочетание ИИ и человека может дать наилучший результат, но только в случае, если точность ИИ будет близкой к абсолютной, а вмешательство человека минимальным. В реальности все чаще всего не так.

Человек склонен к ошибке. Более того, не исключена вероятность того, что ошибка будет допущена намеренно. Эксперту известно как минимум два уголовных дела, связанных с работой преступных групп в региональных филиалах известного банка. Вовлеченные в мошенничество операторы банка при ручном внесении паспортных данных в базу вбивали в присутствии невнимательных клиентов подложные номера. Впоследствии преступникам удавалось взять кредиты, расплачиваться по которым предстояло обманутым людям.

Вопрос доверия – вопрос репутации

Опрашивая пользователей сервисов на тему того, что именно позволяет доверять им в части надежности сохранности данных клиентов, авторы материала исчерпывающих ответов не получили ни разу.

«Обработка данных производится в пределах информационного контура нашей организации, что позволяет нам быть уверенными в надежности и конфиденциальности клиентской информации», – сообщили в «Страховом доме ВСК», который, напомним, работает с Dbrain.

В «Ренессанс страховании» уверены, что персональные данные в Dbrain не отправляют, цитируя при этом дежурное описание самого вендора. «Перед отправкой в Dbrain каждый документ на нашей стороне деперсонализируется с помощью специальных инструментов по принципу пазла, и в Dbrain уходят отдельные кусочки данных, которые никак между собой не связаны», – отметили в компании. По всей видимости, под отправкой в Dbrain подразумевается элемент процедуры, связанный с участием верификаторов-людей.

«Что касается утечек, то согласно условиями договора, ответственность за сохранность переданных Dbrain данных они и несут, – отметили в IDX. – У Dbrain не было никаких утечек».

Эти комментарии, особенно последний, говорят о том, что клиенты сервисов доверяют им просто потому что доверяют. Пока что нет поводов в них сомневаться, доказанных утечек не было, почему бы не исходить из того, что их не будет и дальше. То есть проблематика рассматривается не в разрезе надежности технологий, а с точки зрения репутации поставщика услуг.

В этой связи скептически настроенные по отношению к сервисам адепты информбезопасности отмечают, что клиенты просто недостаточно критично подходят к оценке их разработчиков.

Например, зарегистрированное в «Сколково» юрлицо «Биорга», ООО «Биорг» является убыточным. По итогам 2021 года его выручка упала на 84% до 109,9 миллионов рублей, а чистый убыток составил 45,8 миллионов рублей. Имеющая схожий состав учредителей ООО «Биорг сервис» – также убыточное и почти год находилось в стадии ликвидации. Еще одна связанная с основателем «Биорга» Георгием Зуевым ИТ-компания, – ООО «Новые технологии» – ранее также именовалось ООО «Биорг». На фоне убытков в 2019-2020 годах компания была признана банкротом 24 марта 2022 года. Зато 10 марта 2022 года зарегистрирована новое ООО «Биорг резерв».

В контексте вышеизложенного возникает очевидный вопрос о том, насколько устойчив бизнес «Биорга».

В картотеке арбитражных судов можно найти разбирательство «Биорга» с компанией «Корпоративные компьютерные решения» (ККР). «Биорг» выступил у нее субподрядчиком по госконтракту на конвертацию записей актов гражданского состояния для Комитета Ивановской области ЗАГС. В материалах дела говорится, что «направленный в адрес заказчика (ККР) акт приема-передачи услуг от 30 июня 2020 года с указанием количества конвертированных записей 505 183 ответчиком не подписан. В адрес исполнителя («Биорг») направлено письмо от 3 августа 2020 года, в котором заказчик указывает, что без ошибок представлены только 439 944 записи, остальные направлены на доработку». Это к вопросу о надежности технологий.

Сервис «Биорг» весьма гордится собственными проектами распознавания данных для региональных управлений ЗАГСов в разных регионах России – по прямым госконтрактам. Правда, как показывает анализ сайта госзакупок, большая часть таких контрактов в 2020-2021 годах была исполнена лишь частично – контракты расторгнуты «по соглашению сторон». По некоторым из них заказчиками были начислены неустойки.

Из документов еще одного судебного разбирательства следует, что «Биорг» и сам готов отдавать элементы госконтрактов на субподряд. В частности, 4 апреля 2020 года «Биорг» заключил подрядный договор с екатеринбургским ООО «Альянсгрупп» на перевод в электронную форму книг государственной регистрации актов гражданского состояния, в том числе обеспечению перевода на русский язык записей, составленных на старотатарском языке с использованием арабского алфавита и татарском языке с использованием латинского алфавита, произведенных Управлением ЗАГС Кабинета министров Республики Татарстан и его территориальными отделами.

Да, речь идет о весьма специфической тематике, но субподряд – это субподряд. То есть, привлекая к работам «Биорг», заказчики должны быть готовы к тому, что на кону будет стоять не только репутация этого исполнителя, но и репутация еще одной заранее не известной им компании.

«Биорг» сообщает, что в качестве удаленных верификаторов данных на него работает свыше 50 тысяч человек. При этом, по данным ФНС, официально в ООО «Биорг» в 2021 году работало лишь 55 человек. Это означает, что все распознаватели работают на полном аутсорсинге. Возникает вопрос: можно ли при таком формате обеспечить качественный контроль над их деятельностью.

У остальных упомянутых в материале сервисов, которые декларируют исключительную серьезность разрабатываемых ими технологий, штаты выглядят столь же не впечатляюще. У Dbrain всего 3 человека. У «Тксэт» – 13.

Что касается Dbrain, то в отличие от того же «Биорга» с его собственными краудсорсинговыми людьми-верификаторами, на сайте этой компании заявлено применение разработанного «Яндексом» сервиса «Толока» (стоит копирайт компании Intertech Services AG). При этом в интернете множество сайтов и видео посвящены популярному запросу исполнителей заказов «Толоки» про схемы вывода на Украину.

На этом фоне запись на сайте компании «Тксэт», чей бизнес строится на бережной работе с данными, в отношении проекта с «Фамилией» – «период работы: с августа 2106 года по настоящее время» – можно вполне считать безобидным курьезом.

Сомневаетесь в ИИ? Можно и без него

Для множества российских организаций, в том числе и весьма крупных государственных структур, проблематика рассмотренных выше вопросов – это послезавтрашний день, «космос». В деле распознавания данных они полностью полагаются на «натуральный» интеллект – на наемную неквалифицированную рабочую силу.

В частности, один из респондентов рассказал, что он в течение девяти месяцев в конце 2021 года и начале 2022 года, как и множество других людей числом не менее сотни, занимался переводом в электронный вид сканов «амбарных книг» государственного бюджетного учреждения Москвы «Ритуал» (околопохоронные услуги). Распознавание происходило в отношении сведений (отчасти рукописных) о захоронениях и перезахоронениях на ряде столичных кладбищ. Эти сведения включали персональные данные (номера паспортов, адреса, телефоны) как покойников, так и их живых родственников, ответственных за погребение.

Наемные сотрудники под этот проект были приняты на работу по срочному договору с оформлением по трудовой книжке. Им был открыт удаленный доступ в личные кабинеты в информсистеме «Ритуала». Работники без всякого специализированного ПО, своими глазами изучали выгруженные в систему PDF-файлы с фотографиями документов, перенося из них данные в таблицы «1С».

Формально все происходило на сервере заказчика. В какой-то момент администраторы даже пресекли попытки выкачивать файлы из системы (то есть такая возможность была) для обработки бесплатными программами. Однако сделано это было не технически, а организационно: работники были оповещены, что все скачивания отслеживаются, и распознавание скачанных документов не будет оплачено.

Разумеется, с точки зрения сохранности данных это никакого смысла не имеет. Совершенно очевидно, что никто не смог бы отследить создание скриншотов документов, выведенных на экран. Добавим к этому тот факт, что такую работу можно было вести из любой точки планеты, а то и вовсе отдать на «аутсорсинг» знакомым из-за рубежа.

Кроме того, для участников данного проекта был создан чат в WhatsApp, где они свободно могли выкладывать фото неразборчивых документов, взывая о помощи.

Да, все наемные распознаватели подписали с заказчиком формы о неразглашении сведений (конечно же, особо в них не вчитываясь и относясь как к пустой формальности). Однако, в понимании респондента, он получил полное моральное право нарушить зафиксированные договоренности в силу того, что работодатель поступил с ним очень не честно, особенно, если не оплатил часть работы.

Ему и многим другим работникам в апреле 2022 года было предложено подписать заявление о расторжении договоров. Дескать, завершена первая часть проекта, а вторая требует заключения новых соглашений. После того как все послушно поставили свои подписи, им было объявлено, что проект закрыт. Официальная причина: государству требуются деньги на финансирование других проектов.

Этот «хитрый» маневр «Ритуала» в случае с конкретным человеком привел к тому, что, благодаря его откровениям, читатели данного материала просто смогли узнать о специфике распознавания информации в столичном ритуальном госучреждении. Какими правами наделили сами себя другие недовольные участники свернутого проекта – вопрос открытый. В теории кто-то может попробовать компенсировать моральные издержки продажей данных на сторону. И с учетом имеющегося в распоряжении каждого работника списка контактов коллег из чата в WhatsApp, в этом деле вполне возможная кооперация.

Представители «Ритуала» свой проект перевода бумажных архивов в цифру не прокомментировали.

Заключение

Сервисная модель для распознавания документов необходима исключительно для того, чтобы сэкономить на технологиях или зарплате своим сотрудникам, за счет использования дешевого труда внешних операторов, принося в жертву безопасность. А там, где данные вводятся внешними людьми-верификаторами, риски есть как для граждан, так и для компаний, чьи данные в эти сервисы передаются. При этом, как видно на основе представленных кейсов, совершенно не важно, сколько в сервисе есть ИИ, и есть ли он там вообще. В данном случае важен сам факт передачи данных.

Вот как однозначно комментирует ситуацию Денис Лукаш, эксперт по data privacy международной коммуникационной компании Infobip. «Нельзя просто так взять и передать копии документов третьим лицам для обработки, особенно с учетом новых поправок в российский закон о персональных данных, которые начали действовать с 1 сентября 2022 года, – отмечает он. – Перед субъектами персональных данных и Роскомнадзором будет в любом случае отвечать передающая сторона, у которой не будет права ссылаться на нарушение ее прав третьими лицами. Это касается штрафов до 18 миллионов рублей за нелокализацию персональных данных, последствий утечек, ограничений трансграничной передачи и много другого. Взыскание средств в порядке регресса не гарантировано, так как зависит от ряда факторов, начиная с того, что компания сделала для проверки контрагента перед заключением договора».

Добавим также, что важно знать, что ни наличие у сервисов распознавания сертификатов и лицензий, равно как и заявление о размещении серверов на территории Российской Федерации и присутствие у сервиса статуса оператора персональных данных не освобождает компании, которые передают изображения на обработку в этот сервис, от ответственности в случае утечек. Для пользователя сервиса распознавания думать, что ответственность за утечки данных его клиентов несет сервис, а не он сам, – это все равно что зарывать голову в песок, подобно фольклорному страусу.

Отдельную озабоченность вызывает то, что ключевые игроки на рынке информационной безопасности Group-IB и InfoWatch никак не смогли прокомментировать работу таких сервисов распознавания.

Также необходимо отметить, что масштабы бизнеса сервисов ничтожны по сравнению с возможным ущербом, и в своей деятельности эти сервисы имеют большую юридическую гибкость. И это связано не только с жаждой наживы, но и с тем, что максимальный штраф за утечку персональных данных составляет всего 100 тысяч рублей, а в реальности, как было отмечено выше, 5-10 тысяч рублей, а то и совсем ничего. При таких рисках инвестирование в технологии с точки зрения сервисов выглядит просто глупым.

Стоит отметить, что сейчас в правительство поступил законопроект, который подразумевает введение уголовной ответственности за кражу, незаконное распространение и продажу личных данных россиян. Данный документ предусматривает введение штрафов от 300 тысяч до двух миллионов рублей и лишение свободы на срок до шести лет.

В таких условиях можно рекомендовать гражданам только самим заботиться о безопасности своих данных, выбирая только те компании, которые тоже заботятся о безопасности данных и ничего никому не передают на обработку, что обычно отражено в договоре на оказание услуг. Ну, и стоит держаться подальше от заключения договоров, в которых разрешается передача клиентских данных кому попало.