Тестовые базы и dev/staging: можно ли использовать реальные ПДн и чем их заменить без остановки разработки
Почему хранить копию продакшена в тестовой среде — это уже нарушение закона
Почему это важно прямо сейчас
Представьте типичную картину в ИТ-команде: разработчик берёт свежий дамп продакшн-базы, заливает в локальную или dev-среду и начинает воспроизводить баг. Быстро, удобно — и незаконно.
Именно так выглядит одна из самых распространённых и наименее осознанных проблем в области защиты персональных данных (ПДн). Тестовые среды, базы данных разработчиков, staging-стенды — все они регулярно содержат полные копии клиентских данных. Логика понятна: реальные данные дают реалистичное тестирование. Но за этим удобством скрываются растущие правовые и репутационные риски.
С 30 мая 2025 года в России вступили в силу новые штрафы по Федеральному закону №420-ФЗ [1]: за утечку ПДн из любой среды — включая тестовую — компании могут заплатить от 3 до 500 млн рублей. По данным экспертно-аналитического центра ГК InfoWatch, за первое полугодие 2024 года в России было скомпрометировано почти 1 млрд записей о гражданах [2].
Статья предназначена для разработчиков, тимлидов, ИТ-директоров, специалистов по безопасности и комплаенс-менеджеров — всех, кто сталкивается с вопросом: как дать команде качественные данные для работы, не нарушив закон и не затормозив процессы?
Правовая рамка: что говорит российское законодательство

Почему тестовая среда — это не исключение из 152-ФЗ
Федеральный закон №152-ФЗ «О персональных данных» не делает исключений для среды обработки. Если в базе данных dev/staging-сервера хранятся настоящие ФИО, телефоны, паспортные данные, ИНН или email реальных людей — это обработка персональных данных в полном смысле закона [3].
Регуляторы прямо указывают на тестовые среды как на типичный источник риска. Аналитики VK Cloud, описывая наиболее частые нарушения, прямо называют «копии прод-БД в тестовых средах без обезличивания» как отдельную категорию проблем [4].
Новые штрафы с 30 мая 2025 года
До мая 2025 года максимальный штраф за утечку данных для юрлица составлял 700 000 рублей — сумму, которую многие компании воспринимали как приемлемый операционный риск. Всё изменил Федеральный закон №420-ФЗ от 30 ноября 2024 года [1]:
- За утечку данных от 1 000 до 10 000 физлиц — штраф от 3 до 5 млн рублей для организации.
- За утечку данных от 10 000 до 100 000 физлиц — штраф от 5 до 10 млн рублей.
- За утечку данных более 100 000 физлиц или более 1 млн идентификаторов — штраф от 10 до 15 млн рублей.
- За утечку биометрических данных — штраф от 15 до 20 млн рублей.
- За повторную утечку — оборотный штраф от 1% до 3% годовой выручки (максимум до 500 млн рублей).
- За неуведомление Роскомнадзора об утечке в течение 24 часов — штраф от 1 до 3 млн рублей.
Важно: если разработчик скопировал продакшн-базу в тестовую среду без обезличивания, и оттуда произошла утечка — санкции применяются в полном объёме, потому что компания несёт ответственность за все среды, где обрабатываются ПДн.
Новый приказ Роскомнадзора №140 от 19 июня 2025 года
С 1 сентября 2025 года вступил в силу новый приказ Роскомнадзора №140 [5], заменивший действовавший с 2013 года приказ №996. Новый документ актуализирует требования к обезличиванию и методологию. Параллельно Постановление Правительства РФ от 1 августа 2025 года №1154 [6] закрепило методы и правила обезличивания данных о гражданах на уровне правительственного акта.
Масштаб проблемы: статистика и реальные инциденты
Сколько данных утекает и откуда
Картина утечек в России за последние годы выглядит следующим образом. В 2023 году Роскомнадзор зафиксировал 168 утечек, в ходе которых в сеть попали около 300 млн записей о гражданах [7]. В 2024 году число инцидентов снизилось до 135, но объём утечек вырос до 710 млн записей [2]. По данным аналитиков DLBI, по итогам 2024 года в сеть попало 438 млн телефонных номеров и 227 млн email-адресов — на 70% больше, чем в 2023 году.
По данным Positive Technologies, более 99% утечек в России носят умышленный характер, и основная причина роста — атаки на слабо защищённые нетиповые среды: dev/staging, аналитические базы, среды подрядчиков.
Тестовые среды как точка входа для атак
Глобальные исследования подтверждают системность проблемы. По данным опроса Delphix State of Data Compliance and Security Survey за 2024 год, 54% организаций в мире уже сталкивались с утечками или кражей данных именно из non-production окружений [8]. Согласно аналитике Gartner 2024 Market Guide for Data Masking, вендоры всё чаще получают запросы на инструменты обезличивания данных для тестовых сред [9].
Тестовые среды особенно уязвимы потому, что:
- Они имеют более широкий круг пользователей: разработчики, тестировщики, аналитики, DevOps-инженеры, подрядчики.
- Уровень мониторинга и контроля доступа в dev/staging традиционно ниже, чем в продакшне.
- Данные в таких средах нередко хранятся «бессрочно» — забытые дампы живут месяцами.
- При каждом обновлении продакшн-схемы данные копируются заново, расширяя периметр хранения ПДн.
Методы обезличивания: что разрешает российский регулятор
Четыре метода по приказу Роскомнадзора
Приказ Роскомнадзора №996 от 5 сентября 2013 года (заменён приказом №140 от 19 июня 2025 года) установил четыре базовых метода обезличивания [10]. Новый приказ их сохранил и уточнил:
- Метод введения идентификаторов — замена части сведений (например, ФИО, паспортных данных) уникальными кодами с созданием отдельной таблицы соответствия. Таблица-ключ хранится раздельно и недоступна из тестовой среды. Этот метод называют псевдонимизацией.
- Метод изменения состава или семантики — замена значений результатами статистической обработки, обобщение или удаление части атрибутов. Например, точный год рождения заменяется возрастным диапазоном, точный адрес — городом.
- Метод декомпозиции — разбиение массива данных на несколько частей с раздельным хранением. Каждая часть по отдельности не позволяет идентифицировать субъекта.
- Метод перемешивания — перестановка значений атрибутов между записями так, чтобы нарушить связь между наборами атрибутов одного человека. Имя из одной записи перемещается к паспортным данным другой.
Важно понимать ограничения. Ни один из методов не является абсолютной защитой, и Роскомнадзор прямо указывает, что «практически всегда существует определённый риск восстановления персональной принадлежности» [11]. Это требует регулярного тестирования обезличенного датасета на возможность реидентификации.
Анонимизация против псевдонимизации: важное различие
Эти термины нередко путают, и это создаёт правовые риски. Анонимизация необратима: данные изменены так, что восстановить личность невозможно никакими средствами. Псевдонимизация обратима при наличии ключа или таблицы соответствия.
Критически важно: псевдонимизированные данные по-прежнему считаются персональными данными и полностью подпадают под 152-ФЗ [12]. Если таблица соответствия хранится на том же сервере, что и обезличенные данные, — это не обезличивание в правовом смысле. Постановление Правительства РФ №1154 от 2025 года прямо требует раздельного хранения персональных и обезличенных сведений.
Синтетические данные: современная альтернатива
Что такое синтетические данные
Синтетические данные — это искусственно сгенерированные наборы, которые воспроизводят статистические свойства реальных данных, не содержа при этом никаких настоящих записей о реальных людях. Они создаются с помощью статистических моделей, машинного обучения или генеративных алгоритмов [13].
По прогнозу Gartner, к 2025 году синтетические данные должны были использоваться в 20% всего тест-дата-менеджмента, а к 2024 году — в 60% данных для обучения ИИ. По оценке компании MOSTLY AI [14], до 50% времени среднестатистического QA-инженера тратится на поиск, ожидание или ручное создание тестовых данных — синтетические данные решают именно эту проблему.
Преимущества синтетических данных для разработки
- Правовая чистота: синтетические данные не являются персональными данными в смысле 152-ФЗ при условии, что они не воспроизводят конкретных реальных людей.
- Масштабируемость: можно сгенерировать любое количество записей для нагрузочного тестирования без ограничений реальной базы.
- Покрытие крайних случаев: синтетический генератор легко создаёт данные для edge cases, которых в реальной базе может не быть.
- Независимость от продакшна: команды не ждут «свежего дампа», разработка не блокируется.
- Воспроизводимость: одни и те же синтетические данные можно использовать повторно в CI/CD-пайплайнах.
Ограничения синтетических данных
При всех достоинствах синтетические данные имеют пределы применимости. Они не полностью воспроизводят нетипичные комбинации атрибутов и редкие паттерны, которые могут быть критически важны для конкретного бага. Для синтетики, воспроизводящей редкие случаи, существует риск случайной реидентификации: если генератор видел реальные данные с аномалиями и воспроизвёл их, обезличивание фактически нарушено. Аналитики Ассоциации больших данных, разрабатывая методологию для ML-моделей, указывают, что нахождение оптимального баланса между степенью обезличивания и полезностью данных для модели — это нетривиальная задача, требующая индивидуального подхода для каждого сценария [15].
Техническая реализация: как выстроить процесс
Статическое маскирование (Static Data Masking)
Наиболее распространённый подход для тестовых сред. Создаётся постоянная замаскированная копия продакшн-базы, где все чувствительные поля преобразованы. Оригинальные значения никогда не попадают в тестовую среду [16].
Ключевые требования к статическому маскированию:
- Согласованность across таблиц: если email заменяется на fake@test.ru в таблице users, то же значение должно быть заменено идентично во всех связанных таблицах (orders, logs, notifications). Иначе тесты, проверяющие целостность данных, будут падать.
- Формат-совместимость: замена должна сохранять формат поля. Телефон должен остаться телефоном, паспортный номер — строкой нужной длины.
- Детерминированность: одно и то же значение должно преобразовываться одинаково при каждом запуске маскирования, иначе при регрессионных тестах возникнут ложные расхождения.
Специалисты dis-group указывают на ещё одну тонкость: если несколько систем обмениваются данными через интеграцию, единая модель маскирования должна применяться ко всем системам согласованно, иначе интеграционные тесты не будут работать корректно [17].
Динамическое маскирование (Dynamic Data Masking)
При динамическом маскировании данные не изменяются в хранилище, а «на лету» скрываются при каждом запросе в зависимости от роли пользователя. Техподдержка видит последние 4 цифры карты вместо полного номера; аналитик видит возраст вместо даты рождения.
Этот подход хорош для production, но не заменяет статическое маскирование для тестовых сред, так как не защищает от прямого доступа к СУБД или резервным копиям.
Процесс внедрения: пошаговый алгоритм
- Классифицировать все поля во всех базах данных: какие из них содержат ПДн? (Имена, телефоны, email, паспортные данные, ИНН, СНИЛС, адреса, IP-адреса в сочетании с другими идентификаторами.)
- Разработать правила маскирования для каждого типа поля с учётом требований к формату и ссылочной целостности.
- Собрать единую модель маскирования для всех взаимосвязанных систем.
- Автоматизировать применение маскирования при каждом обновлении тестовой среды — не вручную.
- Тестировать результат на возможность реидентификации: проверить k-анонимность по ключевым квазиидентификаторам.
- Задокументировать процедуру в локальном нормативном акте (это требование приказа №140).
- Вести журнал операций обезличивания — требование законодательства.
Типичные ошибки и как их избежать
Ошибка 1. «Мы замаскировали только очевидные поля»
Команда маскирует имя, телефон и email, но оставляет нетронутыми: дату рождения, почтовый индекс, пол и профессию. Комбинация этих четырёх полей статистически позволяет однозначно идентифицировать большинство людей — это называется «квазиидентификаторами». Проверка k-анонимности обязательна.
Ошибка 2. «Ключ маскирования хранится рядом с замаскированными данными»
Метод введения идентификаторов работает только если таблица соответствия физически недоступна из тестовой среды. Если разработчик может одним запросом к той же БД получить и псевдоним, и оригинальное значение — обезличивания нет. Постановление Правительства №1154 требует раздельного хранения [6].
Ошибка 3. «Маскирование сделали один раз при создании среды»
Продакшн-база живёт и изменяется: новые микросервисы добавляют новые поля, интеграции с внешними системами приносят новые атрибуты. Маскирование, сделанное три месяца назад, сегодня может быть неполным. Это, пожалуй, самый коварный риск: компания уверена, что соблюдает закон, но уже нет.
Ошибка 4. «Подрядчик сказал, что у них тоже всё обезличено»
Компания остаётся оператором ПДн и несёт ответственность за действия своих подрядчиков. Если аутсорс-команда получила доступ к немаскированной тестовой среде — ответственность на операторе. Для сторонних команд и вендоров стандарт обезличивания должен быть не менее строгим.
Ошибка 5. «Синтетика — это всегда безопасно»
Если синтетические данные сгенерированы на основе реальных редких записей и воспроизводят уникальные комбинации атрибутов, реидентификация возможна. Необходима проверка сгенерированных наборов на наличие «близнецов» из реальной базы.
Инструменты и экосистема
Зарубежные инструменты
Рынок инструментов для работы с тест-данными активно растёт. Среди наиболее распространённых решений:
- K2view — инструмент класса «всё в одном» для enterprise: маскирование, управление тест-данными, генерация синтетики. Признан Visionary в Gartner Magic Quadrant for Data Integration Tools 2024 и 2025 годов [18].
- Gretel — специализируется на генерации синтетических данных для AI/ML пайплайнов, поддерживает табличные данные, текст, JSON.
- MOSTLY AI — генерация privacy-safe синтетических данных с контролем статистических свойств, соответствует GDPR.
- IBM InfoSphere Optim — enterprise-решение с поддержкой большого числа СУБД и развитыми функциями аудита.
Важно учитывать контекст: зарубежные SaaS-решения, в которых данные обрабатываются на иностранных серверах, с 1 июля 2025 года подпадают под запрет трансграничной передачи ПДн граждан РФ (ФЗ-23) [19]. Для работы с реальными российскими ПДн необходимы on-premise решения или сервисы с российской локализацией данных.
Российские подходы
Российские разработчики создают специализированные платформы для автоматизации обезличивания [20]. Ключевое требование для российских компаний — on-premise развёртывание или использование российских облачных мощностей с локализацией данных на территории РФ.
Инструменты open source
Для команд, предпочитающих открытый код:
- Synthetic Data Vault (SDV) — набор Python-библиотек для генерации синтетических табличных, реляционных и временных рядов данных. Широко используется в академических и enterprise-проектах.
- Faker (Python/PHP/JS) — библиотека для генерации реалистичных, но вымышленных значений: имён, адресов, телефонов, email.
- Mimesis (Python) — аналог Faker с поддержкой локализации, включая русский язык и российские форматы данных.
Чек-лист для проверки текущего состояния
Ответьте честно на эти вопросы применительно к вашей организации:
- Есть ли у нас полный список всех тестовых и staging-сред, где когда-либо хранились данные из продакшна?
- Знаем ли мы, какие конкретно поля в этих средах содержат персональные данные?
- Задокументированы ли правила маскирования в локальном нормативном акте?
- Автоматизирован ли процесс маскирования, или это делается вручную при каждом обновлении?
- Хранится ли таблица соответствия (ключ) отдельно от обезличенных данных?
- Проверяли ли мы обезличенные данные на k-анонимность и возможность реидентификации?
- Действует ли тот же стандарт обезличивания для данных, которые передаются подрядчикам?
- Есть ли у нас процесс выявления новых полей с ПДн, которые появляются при эволюции схемы?
Если хотя бы на три вопроса ответ «нет» — существуют реальные правовые риски.
Тренды: куда движется область

Синтетика как основной путь
По прогнозам аналитиков, к 2025 году синтетические данные должны составить около 20% от всего объёма тестовых данных. Дифференциальная приватность — математически обоснованный метод добавления управляемого шума к агрегированным данным — всё чаще применяется для публичных аналитических витрин и данных для обучения ML-моделей [21].
Privacy by Design как стандарт
Концепция privacy by design — встраивание защиты данных на уровне архитектуры, а не как «надстройка» — становится регуляторным ожиданием, а не просто хорошей практикой. В российском контексте это отражено в ст. 13.1 152-ФЗ, введённой ФЗ-233 от 08.08.2024, которая регламентирует особенности обработки обезличенных ПДн [22].
Автоматизация обнаружения ПДн
Одним из ключевых трендов становится автоматическое обнаружение и классификация ПДн в корпоративных системах. Компании, у которых нет актуальной карты данных, не могут знать, в каких средах есть ПДн и где они появились в результате новых интеграций.
Роль платформ управления ПДн: когда нужна система
Ручной контроль персональных данных в крупной организации перестаёт работать по мере роста числа сервисов, баз данных и интеграций. Новое поле, добавленное разработчиком в таблицу три недели назад, может незаметно содержать ПДн — и попасть в следующий дамп тестовой среды без обезличивания.
Именно эту проблему — разрыв между реальным состоянием данных и тем, что «задокументировано» — решают платформы автоматического обнаружения и инвентаризации ПДн.
Пятый фактор — российская on-premise платформа для автоматического обнаружения, инвентаризации и контроля персональных данных в корпоративных системах: базах данных, хранилищах, почте, AD/LDAP, CRM, 1С, API. Принципиальная особенность платформы — работа только с метаданными, структурой и агрегатами без передачи и хранения «сырых» ПДн. Это означает, что сама платформа не становится источником нового риска.
Для задачи контроля тестовых сред это особенно актуально: платформа непрерывно видит, какие поля появились в каких системах, кто является владельцем данных и что изменилось. Когда в схеме базы данных возникает новое поле, содержащее ПДн, система выявляет это как новый риск ещё до того, как данные попадут в очередной дамп тестовой среды.
В условиях, когда аудит вручную занимает недели, а штрафы по 420-ФЗ могут исчисляться сотнями миллионов рублей, непрерывный автоматизированный контроль становится не опциональным инструментом, а необходимым элементом инфраструктуры.
Заключение: что делать дальше
Использование реальных ПДн в тестовых средах — это не вопрос удобства разработки против паранойи безопасников. Это правовая реальность, которая с 2025 года имеет конкретную цену в рублях и — в случае специальных категорий данных — уголовные санкции.
Практический путь вперёд:
- Провести инвентаризацию: понять, где у вас есть тестовые среды с реальными ПДн прямо сейчас.
- Разработать или выбрать готовое решение для маскирования, учитывая требования к локализации данных по ФЗ-23.
- Автоматизировать процесс: маскирование должно применяться при каждом обновлении тестовой среды, без исключений.
- Внедрить непрерывный мониторинг: чтобы новые поля и новые источники ПДн не оставались незамеченными.
- Зафиксировать всё в локальных нормативных актах — это требование приказа Роскомнадзора №140.
Хорошая новость: при правильно выстроенном процессе работа с обезличенными или синтетическими данными не замедляет разработку. Напротив, по данным аналитиков promaren.ru, внедрение автоматизированных конвейеров обезличивания сокращало время на выпуск новых витрин данных на 30–40%, потому что команды перестают вручную договариваться о доступе к продакшн-данным [21].
Защита данных и скорость разработки — не противоположности. При правильной архитектуре они усиливают друг друга.
Источники
[1] КонсультантПлюс. Персональные данные: новые штрафы с 30 мая 2025 года. Федеральный закон от 30.11.2024 №420-ФЗ — https://www.consultant.ru/legalnews/28492/
[2] InfoWatch. В России в первом полугодии 2024 года утекло почти 1 млрд персональных данных — https://www.infowatch.ru/company/presscenter/news/v-rossii-v-pervom-polugodii-uteklo-pochti-odin-milliard-personalnykh-dannykh
[3] КонсультантПлюс. Статья 6. Условия обработки персональных данных. Федеральный закон от 27.07.2006 №152-ФЗ — https://www.consultant.ru/document/cons_doc_LAW_61801/315f051396c88f1e4f827ba3f2ae313d999a1873/
[4] РБК Компании / VK Cloud. Как работать с персональными данными в 2025 году: изменения с 1 сентября — https://companies.rbc.ru/news/BSZ231iAod/kak-rabotat-s-personalnyimi-dannyimi-v-2025-godu-izmeneniya-s-1-sentyabrya/
[5] Контур.Норматив. Приказ Роскомнадзора от 19.06.2025 №140 — https://normativ.kontur.ru/document?moduleId=1&documentId=500957
[6] ГАРАНТ. Правительство РФ установило требования к обезличиванию персональных данных. Постановление Правительства РФ от 1 августа 2025 г. №1154 — https://www.garant.ru/news/1840175/
[7] CISOCLUB. Утечки персональных данных в 2023 году — https://cisoclub.ru/utechki-personalnyh-dannyh-v-2023-godu-primery-posledstvija-novye-ugrozy-i-mery-gosudarstva-po-razresheniju-situacii/
[8] OvalEdge. GDPR Data Masking: Techniques, Compliance Steps & Audit Readiness Guide — https://www.ovaledge.com/blog/gdpr-data-masking
[9] Accutive Security. Synthetic Data for Testing & AI – A Complete Guide — https://accutivesecurity.com/guide-to-synthetic-data-generation-tool-for-secure-testing-and-ai/
[10] Российская газета. Приказ Роскомнадзора от 5 сентября 2013 г. №996 «Об утверждении требований и методов по обезличиванию персональных данных» — https://rg.ru/documents/2013/09/18/dannye-dok.html
[11] КиберЛенинка. Обезличивание персональных данных в здравоохранении — https://cyberleninka.ru/article/n/obezlichivanie-personalnyh-dannyh-v-zdravoohranenii
[12] Selectel. Обезличивание персональных данных: цели, методы, схема — https://selectel.ru/blog/personal-data-anonymization/
[13] IBM. Synthetic Data Generation — https://www.ibm.com/think/insights/synthetic-data-generation
[14] MOSTLY AI. The Complete Guide to Synthetic Test Data Generation — https://mostly.ai/blog/synthetic-data-generator-for-healthy-test-data
[15] Хабр / Ассоциация больших данных. Как обезличить персональные данные — https://habr.com/ru/companies/rubda/articles/688116/
[16] TechTarget. What is Data Masking? Techniques, Types and Best Practices — https://www.techtarget.com/searchsecurity/definition/data-masking
[17] DIS Group. Обезличивание персональных данных: что это такое и какие методы? — https://dis-group.ru/blogs/obezlichivanie-personalnyh-dannyh-chto-eto-takoe-i-kakie-metody-zdes-primenyayutsya/
[18] K2view. Best synthetic data generation tools for 2026 — https://www.k2view.com/blog/best-synthetic-data-generation-tools/
[19] Zum Punkt. Новое о персональных данных в 2025: главные изменения — https://zumpunkt.ru/expertise/novoe-o-personalnyh-dannyh-v-2025-glavnye-izmeneniya/
[20] DeSystems. Обезличивание персональных данных — что это и зачем нужно — https://www.decosystems.ru/obezlichivanie-personalnykh-dannykh/
[21] Promaren. Анонимизация персональных данных: методы обезличивания данных — https://promaren.ru/blog/2025/11/09/anonimizaciya-personalnykh-dannyx-metody-obezlichivaniya/
[22] sec.ussc.ru. Планируемые изменения Федерального закона №152-ФЗ — https://sec.ussc.ru/152fz-changes