为什么传统的“指纹”会失效?
在与恶意软件的对抗中,我们面临着一个核心挑战:多态变形。
挑战:多态与混淆
传统的杀毒引擎依赖文件的哈希值或固定的代码片段作为“指纹”。攻击者只需对恶意软件进行微小的改动——比如更换一个参数名,或使用不同的加壳工具——就能生成一个全新的“指纹”,从而轻松绕过检测。
我们的答案:
“猎镜”引擎不再依赖表面的“指纹”。它通过机器学习进行聚类,能够准确的判别文件的相似度。只要其核心的恶意行为没有改变,就能识别出它们在语义上的相似性,并判定其为同源恶意家族。
核心架构:两阶段检测
为了在检测深度和资源消耗之间取得最佳平衡,我们设计了高效的两阶段检测流程。
Step 1
轻量级模型分析
Step 2
快速分流
Step 3
区域特定深度模型分析
所有文件的局部敏感哈希首先会经过一个高速的、基于轻量级模型进行初步分类。如果文件落入特征明确的白名单或黑名单区域,则直接给出结论。只有当文件落入特征复杂的区域时,我们才会调用为该区域专门训练的、更耗费资源的模型进行最终分类。这种架构极大地节省了计算资源。可以灵活的开启深度模型,当遇到未训练或未搭载深度模型区域时,它会仅利用第一阶段的高置信度结论,并保证了对病毒的检测精度,从根本上杜绝了因模型猜测而导致的误报,并赋予了开发者最大的灵活性。
引擎关键能力
通过合理的两阶段架构,实现能力的倍增。
覆盖多态变种
底层训练数据使用局部敏感哈希聚类算法,直接对比其样本的“语义相似度”,具有良好的泛化能力。
识别并归类恶意家族
不仅能简单判断安全类型,更能告诉你一个样本更接近于哪个已知的恶意软件家族。
快速增量式训练
无需对整个庞大的模型进行重训练。只需将新样本加入训练集,进行简单、快速的增量训练,迭代速度快。
大量数据样本库驱动
由“马里亚纳”样本库中经过精准标注的样本对训练而成,确保了模型的广度和深度。
轻量级特征工程
引擎依赖的局部敏感哈希特征均易于提取,这使得整个训练和检测极其高效。
高可靠性结果
优化的两阶段架构,可对已知黑白名单准确分类,低于难判断的结果可以选择性放弃,只输出高可靠性结果。
关键性能指标
基于内部标准化测试环境的数据,仅供参考。
>90.5%
已知家族变种检出率
衡量引擎对抗多态混淆的核心能力
20+
已训练的深度模型数量
针对不同“困难区域”的专项深度模型
<2.04%
高置信度结论误报率
“宁缺毋滥”设计哲学下的高可靠性
如何使用 & 当前状态
猎镜特征引擎是“天听文件分析报告”的核心组件之一,用于提供同源样本分析功能。
集成说明
猎镜引擎目前正在开发中,其部分模型已应用于“鹰眼鉴定引擎”,用于提升对病毒的检出率。未来我们计划推出适合于本地终端使用的版本。