最后发表于 谷歌安全博客 详细介绍了 Gmail 垃圾邮件过滤器的新升级,Google 称之为“近年来最大的防御升级之一”。 此次升级以名为 RETVec(高效灵活文本向量)的新文本分类系统的形式出现。 谷歌表示,这可以帮助理解“恶意文本操纵”——充满特殊字符、表情符号、拼写错误和其他不需要的字符的电子邮件,这些字符以前可以被人类阅读,但机器无法轻易理解。 此前,充满特殊字符的垃圾邮件很容易突破Gmail的防御。
如果您想要“恶意文本操作”的示例,下面的消息来自您的垃圾邮件文件夹。 我个人使用 Gmail 处理这些电子邮件的经验是,上半年这是一个大问题,因为这样的电子邮件经常到达我的收件箱。 RETVec 的技术升级似乎正在发挥作用,因为在过去的几个月里,这样的电子邮件对我来说根本不是问题。
整理这样的电子邮件非常困难,虽然任何垃圾邮件过滤器都可能扫描到这样一封电子邮件:“恭喜!您的头奖帐户可获得 1,000 美元积分”,但这并不是该电子邮件的实际内容。 这里的很大一部分字母是“同音字“深入研究 Unicode 标准的无尽深度,您会发现一些晦涩的字符,它们看起来像是常规拉丁字母的一部分,但实际上并非如此。
例如,主题“𝐂𝐡𝐞𝐜𝐤_𝐘𝐨𝐮𝐫_𝐀𝐜𝐜𝐨𝐮𝐧𝐭”看起来奇怪地粗体,不是因为它有一个大胆的设计,而是因为它使用像“粗体大写数学 c“。这是一个数学符号,对人们来说看起来像字母“C”,但垃圾邮件过滤机器人严格地将其视为数学符号,并且不理解其英文含义。您越仔细地查看这样的电子邮件,情况越糟糕:它包含“零上的“C0NGRATULATIONS”替换了“O”字符之一,“Jᴀ̲ᴄ̲ᴋ̲pot”中的下划线字符非常奇怪,以至于它们甚至不会出现在Unicode搜索中,并且交换了很多空格句点或下划线。结果是垃圾邮件过滤器会查找到此 混乱 从电子邮件来看,基本上放弃了。 (我不明白为什么未读电子邮件被设置为“收件箱”而不是“垃圾邮件”,但我不负责。)
谷歌表示 RETVec 是为了拯救世界:“RETVec 经过训练,能够抵御字符级操作,包括插入、删除、拼写错误、同名字符、LEET 替换等。”RETVec 模型是在新字符之上进行训练的“可以加密所有字符和单词”的编码器。高效的 UTF-8。 因此,RETVec 可以开箱即用地支持 100 多种语言,无需查找表或固定词汇量。”
谷歌表示,这里的效率很重要。 使用“固定词汇量”或“查找表”进行同形词的替代方法使其操作资源密集。 想象一下“Congratulations”的所有可能的拼写错误和用数字、数学符号、西里尔字母、希伯来语或表情符号替换一个或多个字母的拼写错误的列表,您将拥有几乎无穷无尽的列表。 谷歌表示 RETVec 只有 200,000 个“而不是数百万个参数”,因此虽然谷歌的垃圾邮件过滤云可能大到足以运行任何东西,但它又足够小,甚至可以在本地计算机上运行。 里特维克 开源谷歌希望消除世界各地的欺骗攻击,因此即使是您本地的评论部分也可能有一天会触发它们。
RETVec 的工作方式似乎很像人类的阅读方式:它是一个 TensorFlow 机器学习模型,使用视觉“相似性”来确定单词的含义而不是实际的字符内容。 谷歌 显示相似度 它使用相同的技术来识别猫的图像,因此将其变成世界上最酷的光学字符识别系统似乎是可行的。 显然,这种方法带来了显着的改进,正如谷歌所说:“用 RETVec 替换 Gmail 垃圾邮件分类器之前的文本向量,使我们能够将垃圾邮件检测率比基线提高 38%,并将误报率降低 19.4%。”此外,RETVec 的使用使模型的 TPU 使用量减少了 83%,使 RETVec 的部署成为近年来最大的防御升级之一。”
谷歌表示,“在过去的一年里”,它一直在内部测试 RETVec,并且已经将其推广到您的 Gmail 帐户。
“极端问题解决者。旅行忍者。典型的网络迷。浏览器。作家。读者。无法治愈的组织者。”
More Stories
Android 15/One UI 7 正在针对 Galaxy A53、A54 等进行测试
《Helldivers 2》的重大更新招致了负面评价,而且玩家数量并未增加一倍
据报道,谷歌 Pixel 9 将获得一些新的 Gemini AI 功能