Как невидимые данные электронных документов приводят к реальным проблемам

Самые опасные утечки конфиденциальных данных — это те, о которых люди даже не подозревают.

Как невидимые данные электронных документов приводят к реальным проблемам

Минутка риторики. IT-угрозы какого типа опасны для корпораций и небольших компаний, правительств стран и отдельных людей? Утечки конфиденциальных данных. Какие утечки сложнее всего предотвратить? Те, о возможности которых жертвы даже не подозревают.

Не подозревают они, кроме всего прочего, о метаданных, легко превращающих обыкновенный электронный документ в ценный компрометирующий материал.

Метаданные в документах: какие они бывают

Начнем с теории. По классификации, используемой американской Фемидой, выделяют три категории метаданных:

1. Метаданные приложений. Они добавляются в файл приложением, в котором он создается, и хранят внесенные пользователем в документ изменения: журнал сделанных правок, комментарии.

2. Системные метаданные. Включают имя автора, название и размер файла, даты создания, изменения и так далее.

3. Внедренные метаданные. Сюда относятся формулы в ячейках электронных таблиц, гиперссылки, связанные файлы. К этой же категории причисляют и EXIF-метаданные графических файлов — о них мы уже рассказывали подробно.

Классический пример неприятностей от метаданных — отчет правительства Великобритании о наличии у Ирака оружия массового поражения, опубликованный в 2003 году. В DOC-файле отчета обнаружились сведения об авторах документа (точнее, о тех, кто сохранил последние 10 редакций файла). Этот список вызвал серьезные подозрения в качестве, достоверности и оригинальности отчета.

Как написала по следам скандала BBC, в итоге правительство Великобритании для публикации документов вместо формата DOC предпочло использовать PDF, несущий меньше метаданных.

Фальшивый файл ценой $20 миллионов

Любопытную историю разоблачения с помощью метаданных рассказали в 2015 году сотрудники американской юридической компании Venable. К ним обратилась некая компания, из которой уволился вице-президент. Вскоре у этой компании сорвался госконтракт — его с помощью уволившегося сотрудника получила конкурирующая организация.

Бывший работодатель заподозрил перебежчика в краже коммерческих секретов, которые и помогли конкуренту получить контракт с американским правительством. В защиту носитель тайны и его новая компания представили документ, содержащий аналогичное коммерческое предложение, но уже в адрес иностранного государства. По их утверждению, оно было подготовлено раньше, чем был объявлен конкурс в США, предназначалось для другого заказчика и потому не угрожало интересам «кинутой» компании.

Вывести злоумышленников на чистую воду позволила обнаруженная в предоставленном файле «временная аномалия». Согласно системным метаданным документа, последнее сохранение файла произошло раньше, чем последняя печать, чего, как признали эксперты с обеих сторон, не могло быть. (Дело в том, что дата последней печати относится к категории метаданных приложения и сохраняется в документе только при сохранении самого файла. Если документ напечатать, а файл после этого не сохранить, новая дата печати в него не запишется.)

Второе доказательство подделки файла заключалось в дате его создания на корпоративном сервере: он был создан уже после начала разбирательства. Кроме того, ответчиков уличили в манипуляции с датами последней модификации файлов формата OLM (файл почтовой базы Microsoft Outlook для Mac).

Суд счел эти доказательства достаточными для установления вины ответчиков и присудил истцу $20 млн компенсации плюс судебные издержки.

Скрытные файлы

Богатый выбор средств сбора конфиденциальной информации предоставляют приложения Microsoft Office. Например, в примечаниях к тексту могут быть записаны дополнительные сведения, не предназначенные для публикации. Встроенный в Word механизм учета изменений, который отмечает на полях вносимые в документ правки, тоже может быть полезен «шпиону». Если выбрать опцию «Показать измененный документ», то примечания и список изменений с экрана пропадут, но останутся в файле ждать наблюдательного читателя.

А еще есть заметки к слайдам презентаций, скрытые столбцы в электронных таблицах…

Кстати, попытки спрятать информацию без знания матчасти тоже чреваты. В качестве примера можно рассмотреть опубликованный на сайте CBSLocal документ судебной тяжбы между правительством США и бывшим губернатором Иллинойса Родом Благоевичем о вызове в качестве свидетеля Барака Обамы, датированный 2010 годом.

Часть текста скрыта от любопытствующих глаз черными прямоугольниками. Но можно выделить мышкой все строки, скопировать их в буфер обмена и вставить в текстовый редактор. Теперь можно прочитать весь текст.

Черные прямоугольники в PDF помогут спрятать информацию при печати, но в электронном виде обойти их проще простого

Черные прямоугольники в PDF помогут спрятать информацию при печати, но в электронном виде обойти их проще простого

Файлы с двойным дном

Отдельная песня — внедренные в документ данные внешних файлов.

Посмотрим, что можно найти в общедоступных источниках. Поискав документы в домене .gov, мы приметили налоговый отчет министерства образования США за 2010 финансовый год.

Скачиваем файл, отключаем защиту документа от редактирования (пароль не требуется). На странице 41 — обычная с виду диаграмма. В контекстном меню диаграммы выбираем команду «Изменить данные», и перед нами в первозданном виде открывается внедренный файл Microsoft Excel, содержащий исходные данные для диаграммы.

Файл Word с отчетом, а внутри — файл Excel с множеством исходных данных для этой и других диаграмм

Файл Word с отчетом, а внутри — файл Excel с множеством исходных данных для этой и других диаграмм

 

Понятно, что в таких внедренных файлах может быть практически все что угодно, ведь тому, кто публиковал исходный документ, наверняка казалось, что это никто не увидит.

Урожай метаданных

«Выжимка» метаданных из документов интересующей организации может быть автоматизирована — например, с помощью программы FOCA (Fingerprinting Organizations with Collected Archives) компании ElevenPaths.

FOCA может найти и загрузить с исследуемого сайта документы нужных форматов (например, DOCX и PDF), проанализировать их метаданные, а также рассказать многое об организации: используемое серверное ПО, имена пользователей и так далее.

Предостережение: изучение сайтов с помощью подобных инструментов даже в исследовательских целях может не понравиться их владельцам, а то и вовсе сойти за киберпреступление.

Документированные странности

Предлагаем пару особенностей метаданных, о которых, по нашим наблюдениям, знает не каждый IT-специалист. Возьмем для примера файловую систему NTFS, используемую операционными системами Windows.

Первая неочевидная вещь. Если удалить какой-либо файл из папки и сразу сохранить новый файл с тем же именем в эту же папку, то дата создания нового файла останется от старого, удаленного файла. То есть файл мы создали только что, но система уверяет, что он существует уже давно.

Вторая неочевидная вещь. NTFS среди прочего хранит дату последнего доступа к файлу. Однако если открыть файл, а потом посмотреть дату доступа к нему в свойствах, то можно увидеть, что она осталась неизменной.

Может даже показаться, что это баги, но нет: обе странности являются документированными особенностями. В первом случае работает так называемый механизм туннелирования (англ. tunneling), который нужен для совместимости со старыми программами. По умолчанию эффект длится 15 секунд, в течение которых новый файл получает дату создания своего предшественника (настроить этот интервал или вовсе отключить туннелирование можно в реестре). Впрочем, этого хватило, чтобы я сам столкнулся с туннелированием дважды в течение недели при обычной офисной работе.

Второй случай тоже описан в документации: начиная с Windows 7, для повышения производительности Microsoft отключила автоматическую простановку даты последнего доступа к файлу. Включить эту функцию можно в реестре. Впрочем, ее активация не имеет обратной силы — файловая система правильную дату не хранит (проверено низкоуровневым редактором диска).

Надеемся, эксперты по цифровой криминалистике знают все подобные нюансы.

К слову, метаданные файлов могут быть легко изменены как штатными средствами ОС и «родных» приложений, так и с помощью специальных программ. Поэтому использовать их как решающее доказательство в суде вряд ли получится, разве что вместе с сопутствующими свидетельствами вроде журналов почтовых сервисов, файловых серверов и так далее.

Метаданные: защитные меры

В приложения Microsoft Office встроена функция «Инспектор документов» (меню Файл —> Поиск проблем), которая показывает, какие скрытые данные хранятся в файле. Часть из них «Инспектор» может по запросу пользователя удалить, но только не внедренные файлы (как в упомянутом отчете министерства образования США). Вообще же лучше вставлять диаграммы и другие материалы в итоговый документ в виде картинок.

Аналогичные функции удаления метаданных имеет и редактор Adobe Acrobat.

Кроме того, защита от утечек реализуется и в комплексных пакетах информационной безопасности. Так, модуль DLP (Data Loss Prevention) присутствует в Kaspersky Total Security для бизнеса, Kaspersky Security для почтовых серверов и Kaspersky Security для серверов совместной работы. Эти продукты умеют фильтровать такие нежелательные для попадания вовне вещи, как история изменения документа, комментарии и внедренные объекты.

Но идеальный (и, как это и положено идеалам, на все 100% недостижимый) способ побороть любые утечки — это обученные, думающие и ответственные сотрудники.

Советы