猎镜特征引擎 - 猎剑文件鉴定云

为什么传统的“指纹”会失效？

在与恶意软件的对抗中，我们面临着一个核心挑战：多态变形。

挑战：多态与混淆

传统的杀毒引擎依赖文件的哈希值或固定的代码片段作为“指纹”。攻击者只需对恶意软件进行微小的改动——比如更换一个参数名，或使用不同的加壳工具——就能生成一个全新的“指纹”，从而轻松绕过检测。

我们的答案：

“猎镜”引擎不再依赖表面的“指纹”。它通过机器学习进行聚类，能够准确的判别文件的相似度。只要其核心的恶意行为没有改变，就能识别出它们在语义上的相似性，并判定其为同源恶意家族。

核心架构：两阶段检测

为了在检测深度和资源消耗之间取得最佳平衡，我们设计了高效的两阶段检测流程。

Step 1

轻量级模型分析

→

Step 2

快速分流

→

Step 3

区域特定深度模型分析

所有文件的局部敏感哈希首先会经过一个高速的、基于轻量级模型进行初步分类。如果文件落入特征明确的白名单或黑名单区域，则直接给出结论。只有当文件落入特征复杂的区域时，我们才会调用为该区域专门训练的、更耗费资源的模型进行最终分类。这种架构极大地节省了计算资源。可以灵活的开启深度模型，当遇到未训练或未搭载深度模型区域时，它会仅利用第一阶段的高置信度结论，并保证了对病毒的检测精度，从根本上杜绝了因模型猜测而导致的误报，并赋予了开发者最大的灵活性。

引擎关键能力

通过合理的两阶段架构，实现能力的倍增。

覆盖多态变种

底层训练数据使用局部敏感哈希聚类算法，直接对比其样本的“语义相似度”，具有良好的泛化能力。

识别并归类恶意家族

不仅能简单判断安全类型，更能告诉你一个样本更接近于哪个已知的恶意软件家族。

快速增量式训练

无需对整个庞大的模型进行重训练。只需将新样本加入训练集，进行简单、快速的增量训练，迭代速度快。

大量数据样本库驱动

由“马里亚纳”样本库中经过精准标注的样本对训练而成，确保了模型的广度和深度。

轻量级特征工程

引擎依赖的局部敏感哈希特征均易于提取，这使得整个训练和检测极其高效。

高可靠性结果

优化的两阶段架构，可对已知黑白名单准确分类，低于难判断的结果可以选择性放弃，只输出高可靠性结果。

关键性能指标

基于内部标准化测试环境的数据，仅供参考。

>90.5%

已知家族变种检出率

衡量引擎对抗多态混淆的核心能力

20+

已训练的深度模型数量

针对不同“困难区域”的专项深度模型

<2.04%

高置信度结论误报率

“宁缺毋滥”设计哲学下的高可靠性

如何使用 & 当前状态

猎镜特征引擎是“天听文件分析报告”的核心组件之一，用于提供同源样本分析功能。

集成说明

猎镜引擎目前正在开发中，其部分模型已应用于“鹰眼鉴定引擎”，用于提升对病毒的检出率。未来我们计划推出适合于本地终端使用的版本。