概述

Botconf 是一个致力于了解恶意软件生态系统和僵尸网络的会议。它是由一群朋友于 2012 年构思出来的，他们认为有必要召开一次会议，从各个角度关注这个主题，包括恶意软件本身、它背后的人，以及防范它的方法。 Botconf 背后的团队由女性和男性组成，他们的日常生活致力于保护他们的组织、了解网络威胁和培训他人 1。

该会议通常会聚集来自世界各地的 400 名来自不同背景的人，包括执法部门、学术界、CSIRT、威胁分析团队、防病毒开发人员等。他们都有一个共同的目标，那就是打击恶意软件。会议的第一天专门用于小型研讨会，主要会议将在接下来的三天内举行。有很多机会交流思想和知识，享受美食 2。

BotConf 2023

https://www.botconf.eu/past-editions/botconf-2023/

使用系统的代码重用分析创建健壮的 YARA 规则

YARA 是检测和识别恶意软件的常用工具。大致有两种用于二进制文件的 YARA 规则：1) 基于元数据和字符串，2) 基于代码。
基于代码的 YARA 规则有一定的好处。由于代码重用在恶意软件家族的二进制文件中很常见，因此它提供了大量选项来作为 YARA 规则的基础。如果所选代码在二进制文件中被大量重用，那么它可以产生非常健壮的规则。
这种方法带来了某些挑战。一个关键方面是能够在恶意软件家族的许多二进制文件中找到大量重复使用的代码。除非有某种自动化在起作用，否则这很快就会变得困难且耗时。一旦确定了合适的重用代码，就需要将其转化为 YARA 规则，这样即使涉及编译器差异、优化或指令集更改，它也能正常工作。
在本次研讨会中，我们将基于自动识别一个家族的许多二进制文件之间的共享代码，为少数恶意软件家族创建强大的 YARA 规则。

目前两种用于二进制文件的 YARA 规则，基于文本字符串或基于字节。目前大多数公开可用的规则主要有(文本)字符串组成。

根据代码创建yara规则

Qbot代码寿命：

什么是好的基于代码的规则？

唯一代码：所选代码对一个家族是唯一的，可识别的

规范化代码：独立于位置/重定位/操作数

规范条件：对恶意软件代码的更改具有一定的广泛性/弹性，不要太死板

寻找唯一代码

1. 确定大量二进制文件之间的相关代码重用

排除好的软件代码
排除恶意软件家族”分支“

2. 我们将处理这个代码搜索引擎，它允许我们：

首先创建”基于代码“签名，然后允许将其转化为yara规则
签名的预验证
缩放到>数千个二进制

规范化代码

使用mkYARA规范化代码

规范条件

1. 我们希望对代码的更改具有一定的广泛性和弹性

这意味着我们需要想规则中添加的不仅仅是几个函数后基本块
并且有有一个灵活的规范条件，比如20%的阈值 -> 自动化

2. 根据我们在1000多个恶意软件家族中大规模研究代码重用的经验：即使是很小的重叠10-20%的含量足以保证高质量的鉴别

代码搜索引擎-寻找大规模代码重用

代码搜索引擎是什么？

寻找大规模代码重用是什么？

基于代码签名是什么？

需求

粒度：需要有一个精细的代码重用粒度，无论是函数级还是子函数级

准确性：需要一个高质量的代码相似度度量来确定代码重用

规模：需要同时查看数十到数百个恶意软件家族的二进制文件

	粒度	精度	规模
ssdeep	×	×	×
Bindiff	√	√	×
code search engine	√	√	√

代码搜索引擎的架构

二进制文件 – 预处理 – 多个函数 – 特征提取 – subgraph/n-grams/constans – 转换- 二进制数据 – 索引 – 二进制索引 – 搜索 – 搜索数据

子图（subgraph）是指通过将函数的控制流图转换为子图，将函数的执行路径表示为节点和边的集合。这样可以捕获函数内部的控制流行为，例如条件分支、循环和函数调用。
n-grams 是将函数的指令序列划分为连续的 n 个指令片段，并将这些片段作为特征进行提取。n-grams 可以捕获函数的局部指令模式和常见操作序列。
常数（constants）特征提取是指从函数中提取出使用的常数值。常数可以是整数、浮点数、字符串等，在二进制代码中常常包含有意义的信息，例如密钥、硬编码的地址或字符串。