@lsmn
2021-10-19T08:51:39.000000Z
字数 2465
阅读 937
202109
作者|Antonino Rau
译者|平川
Condé Nast的内容质量非常高。我们有22个标志性品牌,涵盖了不同的领域和受众。我们通过一个集中式的数字化平台,一个专注于专有内容管理的系统Copilot,成功改进和统一了所有那些内容的生产和管理。本文旨在让您对Condé Nast如何使用NLP和内容分析改进不同的价值流有一个大概的了解。在本系列文章的第二部分中,我们将深入探讨HAL的系统架构、内部框架以及演进过程。
本文是该系列文章的上半部分,主要介绍Condé Nast的NLP即服务系统HAL的背景和案例。下半部分将着重介绍HAL的系统架构、内部框架以及演进过程。
Condé Nast的内容质量非常高。我们有22个标志性品牌,涵盖了不同的领域和受众。我们通过一个集中式的数字化平台,一个专注于专有内容管理的系统Copilot,成功改进和统一了所有那些内容的生产和管理。
几年前,也就是2015年,我们决定更上一层楼。传统的内容管理系统将内容作为一个黑盒子来处理,从系统的角度看只包含非结构化信息,并最终由人添加一些文档级的元数据,如标签和分类,很容易出现人为标记错误和不一致。我们希望我们的平台能够打开这个黑盒子,自动“逆向工程”我们世界级的编辑放在那里的知识。例如,我们希望理解内容中包含哪些突出的任务、地点、组织和主题,从而加强编辑、内容、受众和广告商之间的互动和体验。
我们决定从理解文本内容入手,创建一个内部的自然语言处理即服务系统HAL,这个名字来自电影《2001:太空漫游》中的HAL-9000。在过去几年里,HAL已经被应用于多个生产用例,从广告活动优化到推荐引擎以及SEO,分析了数百万条内容。通过把机器学习模型作为简单易用的REST API提供出来,HAL为开发人员提供了内容理解技术——包括实体识别、实体链接、关键词提取、内容嵌入(Content Embeddings)、主题建模、分类——以揭示内容的结构和意义。
我们将用一个系列两篇文章来介绍HAL。在第一篇博文中,我们将讨论创建HAL的背景,并看几个案例。在第二篇博文中,我们将讨论HAL的通用处理框架和API,并介绍这个NLP即服务系统的分析器实现。该系统已成为Condé Nast实际在用的自然语言处理系统。
在通过HAL实现标准化之前,我们组织都是针对具体的用例和品牌单独构建内容分析功能。提取出的特征往往被埋没在特定的应用中,只在那个上下文中使用。构建这些模型并将其产品化所需的专业知识和成本都是孤岛式的。由具体用例所催生出的内容表示没有分层抽象,不可能跨团队和职能重用。
我们没有通用的处理流程或是所分析内容的标准化知识表示,没法跨用例和品牌重用,让工程师可以基于内容特征构建可靠、统一、可复制的应用程序和管道。
设计HAL就是为了解决这些问题,为数据和组件重用打下基础,在各种用例中弥合非结构化信息和结构化信息之间的差距。
集中式的NLP即服务系统使下游不同的组件和团队可以受益于提取的特性。下面是一些例子。
推荐系统对于推动再流通、提升客户参与度非常重要。我们的全局性回流产品(recirculation products,译者注:recirculation的一种解释是度量有多少受众阅读完一条内容后又接着阅读下一条)就针对Condé Nast USA和Condé Nast International提供了不同语言的推荐系统。
Condé Nast内部推荐系统利用HAL使用提取的文本特征(如LDA主题、命名实体、链接实体、文本嵌入,都是向量的形式)来发现相似内容。不同的推荐算法以不同的方式使用这些特征,然后互相评价,并通过A/B测试与基于供应商的回流产品进行对照。推荐系统既在初步排序(来自搜索索引系统的大型文档集迅速缩小)时使用HAL特征,也在更细致的重排序阶段使用(文本向量表示的余弦相似度被用作重新排序的信号)。
基于HAL特征的推荐策略将点进率平均提高了30%,这是用于衡量用户参与度的一个重要指标,尤其是对于内部回流。
自动链接是HAL赋能的另一个用例(针对SEO和回流),系统会自动将任务、地点、组织及其他实体类型链接到由我们的编辑所创建的主题页。特别地,HAL会将那些实体链接到我们内部的CMS知识库(由我们的编辑录入的),通过一个定制的链接器Copilot-linker。 Copilot-linker每天都会根据Copilot中新增的知识库条目进行挖掘和学习。下面是一个自动实体链接的例子,从一篇以特朗普为主要讨论对象的文章到《名利场》The Hive People栏目的相关主题页。
自动链接实例
Spire是Condé Nast专有的精准受众定位平台,它利用从HAL中提取的特征对内容消费做语义理解,将这些数据与线上和线下的消费者行为相关联,以创建市场区隔(译者注:是将消费者依不同的需求、特征区分成若干个不同的群体,而形成各个不同的消费群。)。
Spire依据HAL提取的语义特征所做的市场区隔
另一个案例是消费者营销团队使用提取出来的那些语义特征模拟用户订阅出版物的倾向。
最后,我们的数据湖和报表工具将HAL提取出的特征提供给了数据分析师。后者可以查询这些特征获取有关受众和内容消费的洞察。
提取出的实体和关键词
HAL 的第一个用例是自动标注编辑的文章。编辑可以用“魔杖”添加标签,然后再筛选下即可,不用输入任何东西,如下图所示:
编辑自动标注
其他编辑类产品还在评估中,包括内部CMS系统Copilot实现内容自动分类功能的可能性。
希望本文让您对Condé Nast如何使用NLP和内容分析改进不同的价值流有一个大概的了解。在本系列文章的第二部分中,我们将深入探讨HAL的系统架构、内部框架以及演进过程。
查看英文原文:Natural Language Processing and Content Analysis at Condé Nast, Part 1: An Overview