人工智能如何助力媒体生产和运营
■腾讯Dreamwriter项目负责人 刘康
2015年9月10日,一条标题为《8月CPI涨2% 创12个月新高》的新闻在腾讯财经上发布。看上去,这条新闻的内容和媒体记者日常的消息稿无异,引用了统计局的数据还加入了国家统计局城市司高级统计师余秋梅以及银河证券等分析师对数据的分析和预测。但它的作者,其实是腾讯开发的写稿机器人Dreamwriter。
到现在为止,Dreamwriter每年写大约50万篇稿子,总计8000万字。最近一个月的日均产量,仅财经体育类一天就有两三千篇,其他比较多的是天气、交通情况快讯,每天也有两三千篇,另外还有房产、车展,4S店的保养数据、优惠信息等。
除了大家比较熟悉的写稿机器人,我们用得最多的还是花了6个月时间开发的人工智能自动纠错系统,目前这个平台已经对外开放。
在这个平台上,把文章贴进去之后,系统会把可能有错误的内容直接提取出来。红色是机器认为一定是错的,黄色则说明机器不是很有把握,会提供一个备选方案,由人来确定最后的答案。
纠错系统是一个多模型的决策系统,根据不同维度来判断,比如上下文的联系、词语搭配等,在6个月时间里,它跑了所有中文字典、词典,所有正规出版社的典籍、文本,相当于已经把所有中文的词库积累完了。但是这还不够,腾讯新闻每天大概有3000万篇稿件进入Dreamwriter的平台,系统还会抓取企鹅号、微信公众号上面的文章,只要编辑修改过错别字,都会自动反馈给Dreamwriter。新闻报道是人文类的表达,有一些修辞手法,比如一些隐喻,字典上是学不到的,新媒体还不断在发明一些新词。怎么判断对错呢?我们要不停地收集新的案例。这期间,机器自己会总结,人为什么觉得这个是正确的,它会自动找这里面的规律,在不同语境下不同情况下判断这个语句到底是正确还是错误的。我们用半年时间不停调试算法,才能使它勉强达到90%以上的准确率,这个准确率现在已经跟非专业人士差不多了,但相比资深编辑,机器还会差一些,还需要保证迭代速度、学习速度,以达到理想的准确率。
Dreamwriter还有一个自动摘要技术,就是做导读,做主题的提炼。一篇2000字的文章,我们提供几个不同长度的摘要,比如80字、200字、300字等,越短越难,现在做得比较好的是220字到300字的摘要,但是对于机器来说要把一篇一两千字的文章提炼出80字的摘要,还是非常有难度的。
训练机器和纠错差不多,就是把腾讯新闻的文章找出来,机器写一个摘要,编辑二选一,如果选用机器的这个,说明机器这个是可以的;如果编辑自己重写一个,机器会对比一下差异在哪里,把所有案例都收集起来做对比分析。目前 腾讯新闻早晚报很多是通过机器做的。我们系统有一个库,系统筛出50篇稿子,编辑在其中勾10条,点一下确认之后,机器会自己配标题、摘要,配上链接,花的时间大概是秒级的。
另外介绍一个新技术,叫内容梳理技术,我们称它为“自动筛稿”,对日常工作帮助很大。我们知道,很多新闻编辑部上班第一件事是要遍览所有媒体的当天新闻。现在我们通过内容梳理技术,建了一个库,会根据权重、趋势判断和热点分析,把内容池子准备好,编辑部再做选题就很方便了。
还有一个受欢迎的功能是自动专题。某个事件发生后,跟这个事件相关的优先级比较高的稿子会全部纳入专题,实时更新。比如突发交通事故,最新进展怎样,死伤多少人,它会自动纳入专题,不像以前要人工加进去再发出来,现在机器可以自己抓取,而且优先抓的是权重比较高的信源,比如新华社、人民日报。
机器判断热点是很难的,之前我们只做罗列,最近有哪些热点事件,现在则要做一个趋势和热度的判断:精确到某一个事件在未来四到八小时内上升到前五位还是前三位。当然,这取决于算法模型,不能百分百准确但是可以有个估算,这样我们可以有所准备。
Dreamwriter还有个应用就是自动视频。40秒到50秒的短视频,机器只需要1分钟就全部完成了,特效不是重点,重要的是分词算法,视频中说到什么,下面的文字要跟上,这是最难的。另外就是TTS(语音合成),就是用机器人的声音代替人工配音,用在临时紧急的报道,或者批量内容生产上。
另外还有自动图像处理技术,其中一个是自动配图,比如文章有三张图,需要挑一张图做封面,以前是人选的,现在机器可以全部生成好放旁边。还有就是图片裁剪,以前编辑要把它放到PS软件去裁,再另存,然后再放到文章页,现在机器直接做好。给文章配图也是靠算法,比如股市涨跌用什么图片,喜悦、孤独的情感用什么图等等。
现在机器人写作方面比较难的是创作类,比如写诗、写对联,机器人写的对联可能非常工整,可以写十万首不重样,也可以把你的名字串起来做藏头诗,但好不好很难判断。再如做策划,开一个选题会,大家出主意,找灵感,那么机器是不是可以提供一些素材供大家选择判断?这是我们后面要做的事。
理论上来讲,机器写作的产量不是问题,但其实意义不大。因此我们强调Dreamwriter是要做算法辅助运营,希望生产出来的东西,能准确高效地为人类提供帮助,让算法技术服务媒体工作。■