DeepLSH Antivirus Engine

猎镜特征引擎

通过先进的相似度学习算法,精准识别经过混淆和变形的恶意软件。

为什么传统的“指纹”会失效?

在与恶意软件的对抗中,我们面临着一个核心挑战:多态变形。

挑战:多态与混淆

传统的杀毒引擎依赖文件的哈希值或固定的代码片段作为“指纹”。攻击者只需对恶意软件进行微小的改动——比如更换一个参数名,或使用不同的加壳工具——就能生成一个全新的“指纹”,从而轻松绕过检测。

我们的答案:

“猎镜”引擎不再依赖表面的“指纹”。它通过机器学习进行聚类,能够准确的判别文件的相似度。只要其核心的恶意行为没有改变,就能识别出它们在语义上的相似性,并判定其为同源恶意家族。

核心架构:两阶段检测

为了在检测深度和资源消耗之间取得最佳平衡,我们设计了高效的两阶段检测流程。

Step 1

轻量级模型分析

Step 2

快速分流

Step 3

区域特定深度模型分析

所有文件的局部敏感哈希首先会经过一个高速的、基于轻量级模型进行初步分类。如果文件落入特征明确的白名单或黑名单区域,则直接给出结论。只有当文件落入特征复杂的区域时,我们才会调用为该区域专门训练的、更耗费资源的模型进行最终分类。这种架构极大地节省了计算资源。可以灵活的开启深度模型,当遇到未训练或未搭载深度模型区域时,它会仅利用第一阶段的高置信度结论,并保证了对病毒的检测精度,从根本上杜绝了因模型猜测而导致的误报,并赋予了开发者最大的灵活性。

引擎关键能力

通过合理的两阶段架构,实现能力的倍增。

覆盖多态变种

底层训练数据使用局部敏感哈希聚类算法,直接对比其样本的“语义相似度”,具有良好的泛化能力。

识别并归类恶意家族

不仅能简单判断安全类型,更能告诉你一个样本更接近于哪个已知的恶意软件家族。

快速增量式训练

无需对整个庞大的模型进行重训练。只需将新样本加入训练集,进行简单、快速的增量训练,迭代速度快。

大量数据样本库驱动

由“马里亚纳”样本库中经过精准标注的样本对训练而成,确保了模型的广度和深度。

轻量级特征工程

引擎依赖的局部敏感哈希特征均易于提取,这使得整个训练和检测极其高效。

高可靠性结果

优化的两阶段架构,可对已知黑白名单准确分类,低于难判断的结果可以选择性放弃,只输出高可靠性结果。

关键性能指标

基于内部标准化测试环境的数据,仅供参考。

>90.5%

已知家族变种检出率

衡量引擎对抗多态混淆的核心能力

20+

已训练的深度模型数量

针对不同“困难区域”的专项深度模型

<2.04%

高置信度结论误报率

“宁缺毋滥”设计哲学下的高可靠性

如何使用 & 当前状态

猎镜特征引擎是“天听文件分析报告”的核心组件之一,用于提供同源样本分析功能。

集成说明

猎镜引擎目前正在开发中,其部分模型已应用于“鹰眼鉴定引擎”,用于提升对病毒的检出率。未来我们计划推出适合于本地终端使用的版本。