文章| 4月简介:“机器写作”商业化前夕,故事以BAT和今日头条为主。
上周五,有消息称今日头条估值超过1亿美元。
在内容市场的红海中,价值飞速飙升的今日头条,成为了令BAT望而却步的“大鱼”。
寡头围剿与英雄突围的差距充满变数和可能性,技术优势牵一发而动全身。
作为内容市场竞争与人工智能技术结合的产物,书写机器人将目光聚焦于百度、阿里、腾讯、今日头条之间的新战局。
逐渐蓄势待发的机器书写行业本身也成为一场战斗。
一个特别重要的部分。
在深入考察“机器写作”行业的过程中,两个意想不到的事实让我开始重新审视人工智能和内容生产。
这两个事实是:1)在垂直领域的报道中,写作机器人的使用频率很高; 2)腾讯、今日头条、阿里巴巴、百度是国内最早、最成熟的写作机器人技术应用平台。
了解当前人工智能技术在专业领域的应用现状,可以更直观地感受到即将来临的技术革命的前奏。
而且,它在内容领域落地的深远意义在于,将对互联网上游的信息生产流程和数据应用方式产生颠覆性影响。
目前,这一关键阀门掌握在BAT三大巨头和估值过亿美元的新对手手中。
为此,智西西特采访了腾讯内容机器人项目负责人、腾讯金融副总监刘康、阿里巴巴数据科学家唐凯智博士以及今日头条相关专家和行业资深人士,进一步解构这场互联网内容获取权争夺战。
数据重组,一窥更大的文本范式生成市场背后的情况。
(注:最近有消息称百度推出了智能写作机器人Writing-bots。
但据笔者调查,尚无可验证的实际应用案例,因此本文暂不讨论。
以事件为例《杜秘》的解说功能为参考) 1、文本背后的机器人 写作机器人并不是指实体机器人本身,而是自动生成文本、生产内容的机器的系统化抽象和拟人化。
具体来说,写作机器人大多基于特定的信息数据库,利用一定的筛选、分析、计算等信息处理方法对信息进行重新组合和排列,应用预先设定的写作模板,最终输出新闻报道。
。
“机器写作”涉及数据挖掘、自然语言处理、机器学习、搜索技术、知识图谱等多项人工智能技术。
应用通用人工智能要素模型,“特定信息库”是支撑该技术的“大数据”,“文本信息的重组和排列”是该产品背后的核心算法。
从早期的手动设置模板,到引入深度学习后的机器自学习和模板优化,“写作机器人”本身也在不断进化。
机器人参与撰写文章最早始于美国古老的报业《华盛顿邮报》。
早在年底,《华盛顿邮报》就推出了名为“真相讲述者”的实时新闻验证项目。
它可以全程记录新闻报道中的文字、语音等信息,然后与“防伪”数据库进行比对。
如果发现异常,就会发出警报。
今年以来,中外媒体的“写作机器人”纷纷登上版面,并开始名声大噪。
《纽约时报》Blossom、《华盛顿邮报》Truth Teller、《洛杉矶时报》Smart Embedded Template、《卫报》Open、路透社的Open Calais、美联社的Wordsmith等六家国际顶级媒体都建立了自己的机器人服务系统。
在中国,腾讯于今年8月率先推出了Dreamwriter写作机器人。
次年,今日头条小明机器人、第一财经DT选秀王、百度度米解说相继浮出水面。
腾讯、阿里巴巴、百度、今日头条,四方分家的局面正式形成。
在信息流市场,第一财经可以代表阿里巴巴的战略。
2017年,阿里巴巴以12亿元人民币收购中国商业集团30%股权,随后将其大数据价值挖掘专家唐凯智博士调往第一财经担任首席数据科学家,为其自动/辅助写作产品做出贡献。
提供技术支持。
2、四大平台机器人大赛为了呈现更具体的写作机器人市场,笔者集中体验了腾讯、今日头条、百度、第一财经四款产品在用户界面、内容呈现等方面的表现、稿件数量、效率。
,对比分析各公司在产品布局和应用领域的思路和特点。
1)产品特点及应用现状 从以上图表分析可以看出,上述四家公司的“写作机器人”产品仍主要处于自主开发、自用阶段,主要用于内容生产并在自有媒体平台上发布。
此外,第一财经首席数据科学家唐凯智告诉知悉东西,其DT草稿王产品现在也应用在以电商信息为主的终端产品“千牛头条”上。
报道领域主要是体育赛事和财经新闻,大多以短小、扁平、快速的处理方式制作赛事报道、新闻等。
其中,腾讯新闻内容覆盖面最广,产品对接平台包括腾讯财经、腾讯科技、腾讯体育等。
第一财经因其较强的媒体属性和广泛的产品渠道,拥有更广泛的内容发行范围领域,包括媒体产品、微信内容推送、电视新闻等。
在报道形式上,事件报道更倾向于图文结合,图片采用自动匹配模式。
当然,针对不同的终端和产品,报告的风格可能会有所调整。
例如,在腾讯体育移动端,赛事报道以纯文本形式呈现;而在腾讯新闻客户端,则保留了完整的图文内容。
就稿件制作数量而言,各家公司均未给出具体数值。
笔者根据页面呈现次数和参考价值进行了统计。
腾讯覆盖面最广,有效产量有一定优势。
“机器写作的机制是大规模写作,最终由人类编辑和CMS(Content Management System,内容管理系统)来决定是否使用。
一般来说,30-50%的稿件机器生产的产品会被各种渠道使用,最终呈现在页面上。
”腾讯内容机器人项目负责人、腾讯金融副总监刘康介绍。
第一财经主要以股市变化作为新闻切入点,报道频率较高。
“长报告的使用频率较低,最多一天一篇或一个月一篇”。
需要说明的是,仅用于“事件解说”的百度度米平台被纳入分析对象。
主要原因是度米的实时图文内容呈现+音频播报的工业化程度已经达到了机器编写的水平。
其背后的技术原理也非常相似。
或许是因为百度平台本身缺乏媒体属性,或者作为内容分发平台不适合自产内容,百度并没有以新闻的形式在前端呈现。
2)用户界面特征分析以上通过调用第一财经“7*24小时公告栏”、度米APP“度米直播篮球赛”、今日头条“小明机器人”头条号作者专栏、腾讯新闻搜索“ Dreamwriter”将不同界面统一起来,与手机客户端进行对比。
从报告格式和内容丰富程度来看,机器写作与人类没有什么不同。
在标题处理上,“击败雄鹿”、“新高”、“奇才”、“遗憾”等词语已经脱离了机械式的比分呈现,具有个性化的媒体报道属性。
机车车辆财经新闻更注重时效性和数据准确性。
在这个维度上,机器比人更好。
3)内容呈现特点分析在报告形式和风格上,各公司根据用户特点进行了不同的呈现。
腾讯Dreamwriter和今日头条小明机器人采用图文结合的方式进行报道。
小明机器人的图片和现场演示更加丰富,而Dreamwriter则更注重分数和细节。
在文章框架上,两人都提炼了事件的亮点和整体情况,而不是简单地陈述数据。
百度独米的解说以对话框的形式呈现,可以为用户提供比赛的实时直播,并伴有一些动画和音频。
表情和语气词也很到位,更加拟人化、视觉化。
第一财经网,作为一个更加专业、垂直的媒体平台。
除了中文内容的呈现之外,还进行了英文化。
“中文财经模板很大一部分已经翻译成英文模板,节省了内容翻译成本,可以在第一财经全球范围内使用。
”唐凯智博士说。
总体而言,在写机器人这个新业务上,BAT三家公司与今日头条的技术和产品差距并不大。
遗憾的是,百度并没有将其背后的技术整合成完整的媒体产品。
很多人不知道度米的“活动直播”功能。
背后的原因可能是百度本身缺乏媒体平台基因,专注于用户的被动搜索和广告业务。
但另一方面,今日头条向百度的转变速度也超出了预期。
3、外行看热闹,内行看门。
对于一个曾经把“人工智能威胁论”视为笑话的人来说,突然发现机器人入侵了自己擅长的领域,心里有些惊讶和恐慌。
然而,人工智能更大的价值在于理解它,然后将其用于人类用途。
“我个人更倾向于中立的认知,机器写作确实可以替代部分人力,但只是多余的、低技术含量的人力。
”腾讯金融副总监刘康认为。
在与第一财经唐凯智博士的交流中,他认为机器写作的研究主要围绕“逻辑由浅入深??、由精确到模糊”三种典型模式: 1)第一类是以数字陈述事实,进行逻辑简单分析的文章,如二级市场监测、体育赛事简报等; 2)第二类是根据各类稿件的信息要点,从信息源中提取有针对性的信息,将非结构化文本转化为结构化、半结构化数据,然后将信息点组合成单点内容根据不同的规则; 3)第三类是单点内容的关联生成。
这类稿件可以弥补内容单一、信息量单一的缺点。
而对于观众特别是投资者来说,它可以及时连接专家对基础数据的解读和评论,生成更加深入、立体、全面的稿件。
在写作机器人产品中,技术支撑最明确的就是今日头条的“小明机器人”,它是由今日头条实验室与北京大学计算技术研究所(万晓军团队)联合开发的。
今年2月,今日头条还挖来微软亚洲研究院原副院长马维英出任负责人。
在抽取式文本生成研究领域,北京大学万晓军教授关于利用特征工程抽取句子的论文在ACL引起了广泛关注。
今年年初,万晓军老师还作为技术开发团队的带头人,帮助南方都市报完成了书写机器人“小南”的研发。
从产品演化路径来看,第一代书写机器人的语言趋于生硬,句子结构相对简单。
优化后的产品具有更高的语言表达能力和逻辑思维能力,以及图文信息处理能力。
以下是书写机器人信息采集模块的流程:“现在大家还处在技术转型的过程中。
”一位业内人士表示。
早期的产品主要是基于简单的结构化自动生成,嵌入一些数据并使用手动模板。
因为机器学习和数据库的完善,大家都希望利用机器的自主学习功能,“比如运行一百万篇文章,机器会自动构建一个模板”。
但在实际应用中,由于垂直领域、专业领域的文章具有鲜明的特点。
自然语言理解技术存在局限性。
目前,机器读取数据填充格式化模板是最成熟但技术含量最少的解决方案。
书写机器人产品仍然主要用于体育和财经信息。
体育和财经的文本信息较少,数据信息较多。
“每周都有几十场NBA、橄榄球比赛、棒球比赛等,每天还有全球主要市场上千家上市公司的各种披露信息和股票涨跌。
”从这个角度来看,人群结构性强,垂直化需求强烈。
4、商业价值:一拖十五技术落地的最终诉求来自于行业方向和商业价值。
“更多、更快、更好、更省”是腾讯财经总监刘康总结机器人写作的好处。
他没有给出书写机器人准确的产出效益比。
“一般来说,机器产出的稿件,有30-50%会被各种渠道采纳,最终呈现在页面上。
”事实上,写作机器人的效能很容易量化,根据它们产生的稿件或字数,从而量化普通人力的规模。
其核心“快”包括两个层面。
一是响应速度。
写作机器人平均可以在1分钟甚至更快的时间内产出新闻;二是分发速度快,与后端无缝对接,缩短到各平台的中间流程。
。
作为技术输出的第三方,B端的服务集成是另一种可以遵循的商业模式。
对于收费媒体公司来说,“比如一个科技媒体平台,每年的人力成本为1万元,使用自动写作或辅助写作产品可以提高员工绩效和产出,降低人力成本。
”据从业者介绍,书写机器人可以24/7小时在线工作,而手工工作还需要轮班和休息日。
在与第一财经首席科学家唐凯智的交流中,他比较系统地介绍了稿件写作机器人产生的效率提升,主要包括以下三个方面:1)机器稿件产量的增加。
”从去年8月25日开始录制至今,《一财全球》共产生了4篇稿件。
考虑到机写稿件的简洁性,每篇稿件平均64.5字,总字数平均文章稿子约为64.5字,这相当于15人编辑团队同期人工监测股市写作的总产出。
目前的机器稿件,稿王机器稿件的加入相当于第一财经增加了3人的编辑团队。
2)基于企业的实时监控和变更报告工作。
上海和深圳,至少需要15个编辑进行实时监控,每个人需要同时监控多个股票,并且有翻译可以实时翻译。
而且,股票走势分为各种情况,人们反应和分析的时间会造成5到10分钟的延迟。
由于使用了稿件撰写机器人,这些稿件无需人工干预即可快速生成,延迟被缩短至1分钟。
此外,写作机器人还可以针对市场和行业监控并生成稿件。
3)流量贡献。
据Google Analytics汇总报告显示,过去一周,即3月20日至3月29日,机器稿件流量占第一财经总流量的25%,较之前大幅增长。
5、新闻之外更大的文本范式“蛋糕”。
使用写作机器人的工作思路:文本分类、文本中的信息提取、文本摘要以及基于逻辑的自动写作方法。
在“文本范式”领域,都有可以迁移的想象空间,比如法律、合同、电商数据等领域。
“电商模式来钱比较快。
”一位业内资深人士分析道,并提供了一些值得借鉴的方向思路。
电子商务数据丰富且复杂。
对于目前流行的电商导购、返利网站来说,UGC(用户生成内容)需要大量的人工审核。
虽然编辑自己写的比较少,但是还是需要大量的人力来审阅。
机器评审会过滤掉一些有价值的产品推荐。
因此,建立一个由机器、UGC或机器编写的导购网站只需要找到一些有价值的线索即可。
“我们把具体内容交给机器来写,这样就能同时赚到流量和眼球。
”综合以上分析,四大平台下的书写机器人最有商业前景和可能性。
“该平台不仅有完整的财务数据,还有阿里巴巴的电商数据支持。
”前述“千牛头条”面向电商的信息服务也受益于此。
此外,据唐凯智博士介绍,DT King产品的下一步重点是“为专业内容生产者提供技术输出,建立可以与编辑互动的辅助写作系统”。
“语言生成是一个非常基础的问题,如果我们能够很好地解决这个问题,那么在自然语音的理解上可能会有更大的突破。
我们有很多方法可以让困难的问题变得简单。
如果我们能够设计一个模型来自动实现的话,如果你做到这一步,最终的效果会更好。
”今日头条科学家、实验室主任李雷表示,可以想象,由写字机器人衍生出来的一系列“文本范式”算法将成为今日头条未来信息流的来源之一。
另一方面,腾讯正在进一步完善其产品化路径。
“不久的将来,我们会有更具体的产品发布。
它类似于一个服务系统,可以用于前端展示。
”腾讯金融副总监刘康表示。
6、大数据时代,精细化数据“难求”。
在本月初的IT领袖峰会上,马化腾提到,即使是腾讯这样规模的平台,在数据应用方面仍然面临困难。
“用户直接产生的数据还需要脱敏(保留隐私)、清洗(保留有效数据)、标签(分类)等预处理工作,才能产生有价值的数据。
”机器写作需要来自大量文本材料的源信息和文本数据。
但事实上,互联网上的中文信息质量不高,清理难度很大。
另外,稿件来源信息需要清洗后进行格式化,然后通过调用数据、加载模板生成自动化稿件。
模板越精细,效果越好。
然而,实际上并没有足够好的信息源来匹配模板。
同时,编写模板代码的工作量其实也不小。
技术基础和数据库导向。
与NBA、奥运会等大型赛事类似,大型媒体平台本身需要接入有详细图文数据的信息数据库。
“该数据库质量非常高,包含很多细节。
”但除了事件数据和股市数据之外,很难找到这样一个结构化的、高质量的数据库。
另外,因为纯平面的机器写作很难做到,所以垂直行业一般都要求能够细化,比如棒球比赛中如何报几支安打,每个投手或击球手的特点是什么。
对应法律行业就是了解司法制度以及不同法律条文之间的关系。
这远不是一个普通的创业公司能做到的。
7、结论:在你不经意的推送点击和页面浏览之间的下一个“今日头条”很可能不再出自人类编辑之手,而是聪明而不知疲倦的写作机器人的产物。
如果没有这次深入的调查和数据收集,我不会意识到书写机器人产业的发展和落地会如此之快。
这一切都在你我身边悄然发生。
当机器人和人工智能不再依附于具体实体,而是以虚拟的方式侵入人类生活时,它们将变得更加不可预测和不可控。
同时,这也是人类更加理性、客观地审视科技革命的契机。
当新闻编辑室的资源越来越少,需要的重复性、非创造性劳动越来越多时,不难想象,人工智能将在未来的新闻报道中取代更多的“媒体工作者”。
回到技术应用前景。
通过在信息流前端引入算法机制,今日头条正在享受内容市场的技术红利。
如果把这个想法引入到上层的信息流源头会怎么样呢?生产模式中的劳动力改造和个性化匹配必然会产生更加激烈的化学反应。
可以预见,人工智能对信息流生产方式的颠覆将成为BAT与今日头条之间的下一个重要战场。
技术驱动的更核心的商业竞争。
同时,巨大的新兴市场需求也将催生一批有潜力的科技领域新型创业人才。
但我们需要保持警惕。