每一个公众号都在思考一个问题:如何让我的文章被更多人看到?其实除了运营,章节本身的质量才是最根本的。本文腾讯微信数据质量团队解读自媒体在线文章质量自动评估算法,告诉你模型眼中的好文章是什么样的。在移动阅读时代,出现了很多用户生成内容模式下的自媒体平台。每个用户都可以是内容生产者。这种开放性也导致自媒体上的网络文章质量参差不齐。自动评估自媒体网络文章的质量对于在线推荐、搜索、广告等应用场景具有重要意义,但目前这方面的研究工作很少。与格式良好的传统文章(如学术论文和维基百科文档)不同,自媒体在线文章主要由用户创作,没有统一的格式、布局和写作标准,包括文本、图像和视频的多模态混合编辑,内容丰富,风格多样,潜在特征语义跨度大。同时,评价过程需要充分考虑读者的阅读体验。此外,影响文章质量的因素包括内容、排版布局、写作风格等不同方面的多重因素。所有这些都使得自动评估来自媒体的在线文章质量变得更加复杂和具有挑战性。为了应对这些挑战,在ACMMM2020中,腾讯微信数据质量团队建立了一个统一的框架来有效地学习和整合在线文章质量评估的不同因素,并构建了一个结合排版布局、写作风格和深度语义的联合模型CoQAN,并设计了不同表示学习子网络,特别是考虑了移动端的交互特征学习过程和交互阅读习惯,更符合人类对文章质量评价的认知。作者还构建了一个大规模的真实世界评估数据集。充分的实验结果表明,所提出的方法有效地学习和整合了在线文章质量评估的不同因素。论文链接:https://arxiv.org/pdf/2008.05658.pdf考虑到自媒体平台的性质,作者合理地将自媒体在线文章的质量定义为阅读体验的水平。文章给用户带来的,即文章的可读性,体现在文章的信息内容、写作规范、用户观感等方面。优质的文章需要满足版面工整美观,章节段落清晰,以及图片和文字排列整齐;内容要连贯、衔接性强,写作逻辑性好,信息丰富。相反,低质量的文章往往排版或写作逻辑混乱,内容不完整或无意义,甚至可能是文字拥挤或纯图片或视频乱七八糟。图1显示了两篇微信公众号文章报道了同一则新闻“中国学者张莹莹被绑架和谋杀”,我们可以很容易地分辨出它们之间的区别:右边的低质量文章包含不相关的广告图片,并且使用了少量文本行中的多种文本格式,给阅读者的眼睛带来不必要的负担,并且在表达上使用了更多的口语化和情绪化的词语。相反,左边的优质文章,写作逻辑和表达更好,传达的内容更丰富。图1:优质文章(左)与低质量文章(右)示例我们知道,人类在阅读自媒体网络文章时的认知过程是由浅入深的。读者在点击一篇文章时,首先感受到的是排版外观,即读者的肤浅认知。精美的视觉排版和丰富的呈现形式可以让读者对文章产生兴趣,给读者带来更好的阅读体验。然后,读者通过浏览词汇、句法、文章组织、图片等得到内容的主要印象,这是读者的粗浅认知。最后,读者需要对文本语义和写作逻辑有深刻的理解,才能体会到文章的意义和价值,这是读者的深刻认知。受上述认知过程的启发,本文提出将布局组织、写作特征和文本语义结合起来,以交互方式学习特征表示,并将它们集成到一个统一的框架中,以评估自媒体在线文章的质量。不同于传统的文档质量评估大多只考虑文本元素,本文提出的方法以图像为建模页面布局的关键单元,提取重要的图像特征来反映文章的视觉感知水平和可读性。这项工作的主要贡献包括:据我们所知,这是第一个解决自媒体在线文章质量自动评价的研究工作。所提出的方法可以很好地模拟人类专家的评分要素和阅读习惯。作者提出了一种结合不同特征空间子网络的联合认知表示学习模型,并构建了一个端到端的媒体在线文章质量评估框架。作者构建了一个大规模的真实世界数据集。广泛的实验结果表明,所提出的模型明显优于以前的文档质量评估方法。具体方法本文将自媒体网络文章的质量评估看成是一个分类任务,即给定一篇文章,预测它是一篇高质量文章还是一篇低质量文章。图2展示了本文提出的用于自媒体在线文章质量评估的CoQAN网络架构,其中设计了三个子网络来解耦布局组织、书写特征和文本语义的建模。对于布局建模,研究人员考虑了人们在终端阅读自媒体文章时从上到下滑动的顺序阅读习惯,将文章划分为一系列内容块,明确学习文章图文标题等排版布局元素,并同时捕获整体页面布局和局部排版模式。书写特征子网络考虑了多模态元素特征,通过深度特征交互关系的学习,可以对不同的特征子空间进行特征选择和特征融合,实现高阶非线性特征融合。文本语义子网络从不同的语义层次深度捕捉章节级别的长文本内容中的语义和衔接关系,深入学习复杂语义空间中词句之间的依赖关系和文章的整体写作逻辑。在融合层,每个子网络通过一个全连接层调整输出向量中每个神经元的权重,级联后通过输出层预测质量类别。图2:本文提出的用于自媒体在线文章质量评估的CoQAN网络架构布局组织子网络为了明确学习外观布局的组织和排列,作者首先将文章划分为一系列内容块通过页面解析,内容块可以是标题,段落,图片或视频,如图3所示。之后,为每个内容块提取页面布局相关的特征,例如类型(文本/图像/视频),在文章中的位置、内容块自身的高度、距页面顶部的距离等。这些特征值聚合起来形成每个内容块的排版特征向量,可以表达多个重要的布局特征。图3:布局组织子网络中输入特征向量的内容块提取和构造。GRU网络应用于内容块排版特征向量的序列,以对内容块之间的顺序依赖关系进行建模并捕获文章的全局排列模式。同时,作者在输入的排版向量上应用一维卷积神经网络来学习关键的局部布局,并设置多种大小的卷积核来捕获不同尺度的布局模式。这两个网络级联以产生该子网络的输出向量。WritingFeatureSubnetwork写作特征子网可以捕获在线文章的编辑风格。作者提取并计算了包括标题、文本、图像和视频、章节组织等特征。例如,标题特征包括标题长度、关键词数量等;文本特征包括文章类别、文本长度、n-gram、词性标签、非重复字符、非重复词比例等;图片和视频特征包括图片数量和动画数量、视频数量、OCR文本最大数量等,章节组织特征包括段落数量、用作块标志的模板图片数量,图片数量与段落数量的比率等。为了允许不同类别特征和数值特征之间的交互,写作特征子网络首先通过嵌入层将所有特征投影到相同的特征空间中,旨在建模高在嵌入空间中排序组合特征。在本文中,作者通过应用多头自注意力层同时学习多个特征子空间中不同特征之间的相互依赖性,并进行特征空间融合。多个头使一个特征域能够包含在不同的组合特征中。作者在网络中添加了残差连接,以保留之前学习的低阶组合特征,包括原始的单一特征。网络堆叠多层multi-headself-attention层,从而可以同时对多层次的组合特征进行建模,实现不同空间的深度特征融合。文本语义子网络的作者改进了BERT,将hi-Bert设计为文本语义子网络。BERT依托强大的预训练技术,具有强大的上下文关系建模能力。由于BERT中self-attention机制的时间复杂度为O(n2),因此BERT目前只用于处理句子级别的文本,不适用于文档级别的长文本输入。考虑到文档固有的层级结构,即wordformsentence和sentenceformdocument,作者将BERT改进为hi-BERT的层级结构,包含两级encoder依次对文档进行编码,分别应用到sentencelevel和文档级别。由于标题是文章的高级概述,因此标题也用作此处的输入句。在句子层面,网络以迁移学习的方式使用预训练的BERT。在文档层面,作者使用了一个文档层面的双向Transformer层来学习句子之间的深度依赖关系,从而得到最终的文章语义向量。hi-BERT可以深度学习单词和句子之间的交互关系,并且可以学习文章面对不同写作风格的鲁棒语义表示。实验结果由于自媒体网络文章质量评估任务没有公开数据集,作者从微信公众号平台收集并处理网络文章数据,构建了自媒体网络文章质量分类数据集。该数据集包含38,248篇在线文章,涵盖44个文章类别,涵盖新闻、财经、科技、民生等领域。在此数据集上进行实验评估。对比实验结果表明,所提出的方法CoQAN在各项指标上都取得了最好的结果。在实验中,基线模型使用了与本文提出的模型相同的特征,因此模型的优越性能得益于作者提出的联合网络表示学习架构,可以完整地学习到更多有价值的信息。消融实验结果证明了每个子网络的架构和联合学习的有效性。当去除文本语义子网络时,网络性能下降最多,这表明有必要对复杂的书写知识进行建模。此外,文本语义子网优于所有仅对文本输入建模的基线模型,而书写特征子网优于所有基于特征的基线模型。对文章布局进行建模可以有效提高文章质量评估。表现。从实验结果来看,任意两个子网络组合的性能都优于单个子网络,三个子网络组合的整体网络CoQAN是最优的,证明了每个子网络都发挥了重要作用在评价自媒体网络文章质量方面。发挥了重要作用。作者设计了扰动实验来验证模型是否能够学习到感兴趣的书写逻辑和布局模式。实验中,随机打乱所有被正确预测为正样本的文章的句子顺序或布局内容块,将打乱的样本视为负样本,观察扰动成功的比例。扰动率越高,表示模型对写作逻辑和布局模式越敏感,评价文章质量的能力越强。从结果来看,本文提出的模型明显比所有对比模型对句子置乱的干扰更敏感,这表明CoQAN更容易捕捉句子之间的衔接关系,学习内容和写作逻辑的一致性。单文本语义子网络(TS)的成功扰动率高于整体联合网络CoQAN,因为扰动实验是在正样本上进行的,具有良好的文本质量和排版质量。因此,良好的布局可以在一定程度上避免CoQAN在仅打乱句子时将其判断为负样本。当布局顺序和句子顺序都被打乱时,干扰成功率远高于单一维度下。这些结果表明,所提出的CoQAN成功地学习了文本组成和页面布局的知识。此外,作者对特征的交互关系进行了可视化分析,发现底层self-attention层可以区分主导特征,而顶层学习更复杂的特征空间交互并获得有意义的高阶融合特征。图中的结果表明,主要特征是文本长度和图片中的最大字符数。高质量的文章通常内容更丰富,图片也更规则,而低质量的文章通常内容不完整,往往包含大量的文字文字广告图片。其他重要特征包括图片中文字区域的比例、唯一词的数量、标题中关键词的数量、图片数量、段落数量、词性等,表明组织图片、标题、文字和文本的质量对于媒体在线文章的质量非常重要。重要的。
