Coremail AI技术发展前生今世

2023年3月15日凌晨,OpenAI发布大型多模态模型GPT-4,正式宣告AI迈入新的“黄金时代”。作为邮件安全厂商,Coremail不禁思索,在当今科技高速发展的节点上,如何将此类大型多模态模型落地至具体的邮件安全防护?

3月23日,Coremail邮件安全人工智能实验室首席架构师潘庆峰(下文简称“大P”)在直播间为观众朋友们介绍了Coremail AI技术发展历程,并展示了CAC邮件安全大数据中心与应用产品的闭环架构,也欢迎志同道合的朋友们与我们共同讨论分享。

智能算法萌芽期(2000年前后)

作为2000年就加入Coremail进行邮件系统开发的元老级人物,Coremail内部常常亲切地称呼潘庆峰老师为大P。

据大P介绍,在1999年开发出第一套邮件系统后,Coremail在第二年就已经开始了关于反垃圾技术的相关研究。

随着技术的发展与垃圾邮件的增长,Coremail逐渐开始运用多种智能算法对邮件进行分析过滤,包括Bayes算法, fingerprint算法,基于规则权重的邮件评分算法等。

智能算法发展期(2010前后)

面对这类挑战,Coremail在这十年间逐步引入了大数据技术,建立了Coremail邮件安全大数据中心(CAC中心),建立了云端的CAC服务,通过实时检查和特征规则下发加强各个Coremail系统的反垃圾能力。

CAC中心应用特征工程结合传统的人工智能垃圾邮件识别算法,如SVM和浅层的神经网络算法等,比原来的基于邮件评分的简单算法过滤效果有了进一步的提升。

Coremail针对新出现的发送垃圾方法做了集中性检查处理,比如文本图片类型的垃圾邮件,根据当时的算力限制,专门研发了图片垃圾的非OCR算法并申请了相关专利。

2015年后深度学习算法开始快速发展,计算机视觉,自然语言处理等方面出现了大量的高水平模型,CAC也尝试在钓鱼邮件检测等方面应用深度学习的一些算法。

大规模应用期(2020年至今)

伴随深度学习算法继续爆炸性的发展,自然语言处理,异常检测,迁移学习和预训练大模型等AI技术也在快速产生。

幸运的是,攻防对抗中,Coremail基于邮件安全大数据中心持续积累的海量优质数据,实现了邮件样本智能收集,识别,入库,反馈,自学习训练并提升算法模型能力的闭环。

在垃圾邮件检测,异常登陆检测,语义分析等方向都做了各种尝试并取得了一定的效果,相关的一些深度学习算法已经直接应用在了我们的产品中,如CAC 2.0反钓鱼防盗号、CACTER邮件安全网关、安全管理中心SMC2等。

在未来,Coremail AI LAB将坚持长期主义,加大对云计算、人工智能、大数据的投入研究,将成果实践落地至Coremail系列产品,运用到实际的业务场景中,推动邮件安全整体产业性发展。

经验分享 程序员 微信小程序 职场和发展