视频内容安全和视频检索等场景前沿技术SGR分析

发布者：阿里安全

发布于：2021-04-16 14:30

互联网内容越来越朝着视频化方向发展，短视频处于爆发期，一些不法分子试图利用视频风口牟利。3月底，深圳警方打掉了一起以短视频APP为载体，大肆从事淫秽传播、网络赌博以及网络诈骗等犯罪活动。

最近，阿里安全图灵实验室就发布了一项关于社会文化的最新技术研究，这是一种新型视频描述生成技术SGR，可用于视频内容安全和视频检索等场景，助力建设互联网清朗环境，该研究成果被人工智能国际顶会CVPR 2021（oral）收录。

阿里前沿技术让AI做“阅读理解”

SGR可以实现两类基本功能，一是让AI对视频内容做“阅读理解”，生成一段长文本描述视频中心内容，二是可以根据描述性的文本精准匹配视频中的相关片段。

相较于此前必须人工定义关键词词库后，才能“指挥”AI命中检索，这项AI技术的目标是仅通过输入自然语言就能实现检索，对AI“说句话”，就能找到相应片段。

“视频中如果有人拿起鼠标，点击电脑，然后脱掉衣服，呈现黄赌毒等相关违规信息，以前的技术路径上，AI可能还要分析脱掉衣服之前的动作，其实拿鼠标和点击电脑与后面的违规内容没什么关联，无需提取这些信息。”该研究第一作者、阿里安全图灵实验室实习算法工程师青崧介绍道。

SGR解决了这个问题。给定一个视频，AI可对视频的关键候选片段无缝衔接成一个完整的故事，保证了密集型描述的连贯性，且减少了冗余。

该研究共同作者、阿里安全图灵实验室高级算法工程师雍秦介绍，虽然目前这个技术还无法做到“1分钟讲清楚一部电影”，但可做到“两句话讲清楚一个10分钟以内的短视频”，这意味着通过该技术未来可迅速判断整个视频的关键信息是否包含黄赌毒等违规内容。

更快更准识别违规风险内容

通过这两个功能，AI能快速识别、准确定位违规片段，无需人类鉴黄师反复回看确认。

雍秦透露，在SGR技术研究基础上，阿里安全近期还将研发低门槛、高可用的“鉴黄”AI工具，让AI对视频不同片段打出“危险指数”，依赖信息提取直接关联高亮风险片段，让AI鉴黄更智能、高效。

未来，在实际应用场景中，通过AI来进行不良内容识别的研判准确性和效率将大幅提高，比如判断视频内容中是否有“一个穿着暴露萝莉装的女孩鸭子坐着在录吃播”，以往要形成“暴露萝莉装”“鸭子坐”“吃播”三个标签，每次依据一个标签进行一轮审核，判断视频内容是否涉嫌低俗，三轮审核交叉验证。创新工具应用后，AI只用输入“一个穿着暴露萝莉装的女孩鸭子坐着在录吃播”这句话进行一轮研判，准确性也更高。

图说：阿里安全近期将研发低门槛、高可用的“鉴黄”AI工具，该图为示意模型。

阿里安全图灵实验室资深算法专家华棠指出，阿里安全一直希望从源头守护安全，这是阿里提出的安全方法论“新一代安全架构”的核心理念。“互联网上每天产生如此多的视频数量，单靠人力无法维护互联网清朗环境，从上述案例也能看到，违规视频内容危及大众心理健康和财产安全，我们希望创新算法可以有更多用武之地，构建美好安全的网络生活。”

SGR技术详解

现有的密集型视频描述生成方法采用自底向上的方式，即先生成大量的事件候选片段，再为每个片段独立的生成描述，从而组合得到密集型视频描述。然而，视频中事件具有很强的多样性，既可以简单到是一个动作，也可以复杂到是若干事件的组合，这导致事件候选片段的生成目标不明确，进一步导致对应的密集型描述不够连贯和准确，且充斥着大量冗余。

对此，我们提出了自顶向下的密集型视频描述方法（SGR）。给定一个视频，我们首先为其生成一个包含多句连贯描述的段落，对于段落中的每句描述，我们接着将其定位到视频中的片段上，从而得到连贯的密集型视频描述。通过这种方式，SGR的所产生的事件候选片段可以无缝衔接成一个完整的故事，保证了密集型描述的连贯性且减少了冗余。为了进一步增加视频片段的描述细节，我们设计了描述提升模块，以初步得到的密集型视频描述和视频片段为基准，并提出专用于描述质量提升的强化学习策略，来生成细节更丰富的密集型视频描述。

方法结构如下图所示：

基础知识 AI智能

声明：该文观点仅代表作者本人，转载请注明来自看雪