Раскрытие киберпреступников: гибридный подход глубокого обучения для атрибуции на основе поведения

D2 · 7 Апр 2025

Продафт тут выдали интересное исследование, рекомендую всем ознакомиться: http://web.archive.org/web/20240715150706/https://dl.acm.org/doi/pdf/10.1145/3676284

У меня нет времени переводить полностью, попробую резюмировать:

1. Все начинается с уже собранной информации с ханипотов - датасета - (привет методу Басстера по бруту популярных паролей!) в Китае, Европе и США:

Our unique dataset comprises various actors and the commands they have executed, with a significant proportion using the Cobalt Strike framework in August 2020-October 2022.

European Threat Intelligence company PRODAFT provided private threat intelligence data collected from August 2020 to October 2022. Commands executed by the attackers were captured by PRODAFT using various private honeypot servers located in China, Europe, and the United States.

2. Датасет был использован для построения гибридной модели, которая добилась точности в своих предсказания - от 89% до 95% для идентификации конкретной группы ~~зло~~единомышленников:

Hybrid architecture has achieved F1-score of 95.11% and an accuracy score of 95.13% on the high-count dataset, F1-score of 93.60% and accuracy score of 93.77% on the medium-count dataset, and F1-score of 88.95% and accuracy score of 89.25% on the low-count dataset.

3. Поведенческие подписи - это набор отличительных признаков, которые свойствены для конкретного ~~зло~~единомышленника: все это часть общего профилирования, куда в том числе входят инструменты, тактики и процедуры (ТТП)

Behavioral signatures refer to distinct patterns of activities that can be associated with a specific threat actor. On the other hand, threat actor profiling involves creating comprehensive profiles of cybercriminals based on a range of attributes including, but not limited to, their behavioral signatures, tools used, tactics, techniques, and procedures (TTPs).

4. Изучая уникальные команды и их последовательности, эксперты могут различать модели поведения, которые используется как электронные отпечатки пальцев и позволяют быстро и точно определять ~~зло~~единомышленников.

By studying the unique commands and sequences a threat actor uses, experts can discern distinct behavioral patterns that act like digital fingerprints. This facilitates quicker and more accurate investigations by offering insights into the attacker identification.

Attributing CTAs using the sequence of commands they have executed can provide valuable insight into their behavioral processes, which can ease the attribution process

5. Еще раз, в чем суть: ~~зло~~единомышленники используют различные фреймворки, команды и малвару в своих кампаниях, в случае конкретного исследования речь идет о командах, использованных вместе с Кобой. Последовательности команд, выполняемых ~~зло~~единомышленниками, значительно различаются: количество варьируется от 1000 до 15 на каждого ~~зло~~единомышленника.

The dataset used in this study comprises unique identifiers of threat actors. Threat actors and CTA groups use various frameworks, commands, and malware to facilitate their activities. In our case, a high portion of the data consists of commands executed using the Cobalt Strike. The sequences of commands executed by CTAs vary significantly, with the volume of commands ranging from as many as 1000 to as few as 15 per threat actor.

6. Датасет включает в себя в том числе и другие фреймворки, не только Кобу. Данные состоят из перечня команд, выполненных ~~зло~~единомышленниками совместно со временем, за которое (когда) они были выполнены. Дата сопровождается уникальными идентификаторами ~~зло~~единомышленников. Например, в Таблице 1 показан пример структуры команд и их содержание.

Dataset contains several attack frameworks, such as the Cobalt Strike. The raw form of the data consists of lists of commands executed by CTAs along with the exact time that is executed. The data is already clustered with CTA’s unique identifications, such that the data is labeled with CTA’s aliases. For example, Table 1 shows a sample command structure and its content.

7. SCLC – этап обобщения данных. В первую очередь SCLC занимается обработкой сырых данных - происходит общее сопоставление команд, т.к. разные вредоносные программы, которые используют ~~зло~~единомышленники, работают в разных средах и почти совершенно разными способами. Поэтому продафт вручную проверили общие и похожие команды, чтобы сопоставить похожие команды и представить их в виде одной команды (для тренировки модели). Более того, SCLC включает в себя все пути к файлам, домены, имена пользователей и прочией индикаторы ~~зло~~единомышленников.

Подобные команды, такие как Execute_cmd, Run и Start, имеющие одно и то же значение, записываются как команда execute_cmd. Благодаря этому модель становится более совершенной для понимания контекста вне зависимости от вредоносного ПО, которое используют ~~зло~~единомышленники. Например, два ~~зло~~единомышленника, использующие разные вредоносные программы для выполнения одной и той же команды с разным синтаксисом, необязательно, но вполне вероятно будут определены моделью. Общая цель - архитектура NLP должна различать CTA не по используемому ими вредоносному ПО, а по уникальному стилю работы.

SCLC - Data Generalization Step. The first place that SCLC is processing raw data. The motivation behind this step is to create a generic command mapping since different malware that CTAs use work in different environments and in nearly completely distinct manners. Therefore, we have manually inspected common and similar commands to create a mapping for similar commands into a single command. Moreover, all file paths, domains, usernames, and indications for a CTA are being obfuscated by SCLC.

Similar commands such as execute_cmd, run, and start, which have the same meaning, are mapped into the command execute_cmd. By doing so, our NLP architecture becomes more aware of the context, becoming independent of the malware that CTA uses. For instance, two threat actors who use different malware to execute the same command with different syntax, not necessarily, but probably. However, our NLP architecture should not distinguish CTAs by the malware they use but by their unique operating style.

8. SCLC — этап работы с таймстэмпами. Данные включают в себя время выполнения команды, в том числе определяются секунды между двумя последовательными командами. Затем вычисляется прошедшее время для каждой последовательной команды, которое идет как команда между ними. Таким образом, мы получаем время ожидания между словами, или, в нашем случае, время размышлений ~~зло~~единомышленника перед выполнением какой-либо команды.

SCLC - Time Feature Generation Step. The data includes the timestamp a command has executed, so one can easily deduce the seconds between two consecutive commands. Then, we calculate the elapsed seconds for each consecutive command and insert it as a command between them. Hence, we are imitating the wait time between words an author writes in their book, or our case, the thought process of a threat actor before executing any command.

9. Важное замечание об ограничениях метода: продафт заявляет, что у них нет доступа в режиме реального времени к жертвам киберпреступлений, а только данные с ханипотов, также команды, собранные в датасет, это только те команды, которые были воспроизведены исключительно ~~зло~~единомышленниками, без команд реальных (нормальных) пользователей (т.е. "необъективность выборки).

In addition, due to the nature of our experiments and the fact that we did not have access to real-life victims but mostly honeypots, our dataset only consists of the commands that the attacker executed. This selective data collection method inherently introduces a selection bias, as it does not capture commands from legitimate users

P. S. Там еще сквозь все исследование вижу привет некоторым людям: