机器人新闻:原理、风险和影响
■邓建国
【本文提要】近两年来,国内外新闻业界和学界都在热议“机器人新闻”(Robot journalism)、“自动化新闻”(automated journalism)、“算法新闻”(algorithmic journalism)、“计算机生成内容”(computer-generated content,CGC)。据预测,“机器人生成内容”(CGC)很快将与“专业新闻记者生成内容”(PGC)以及“用户生成内容”(UGC)一起构成数字化新闻和信息的三大主体。本文分析了机器人新闻生产背后的逻辑、所面临的挑战以及给新闻业带来的影响。作者指出,在未来的新闻生产中,人类记者可能从数字泰勒主义的新闻生产模式中解脱出来,和机器人记者一起协同工作,各司其职,各尽所能,相得益彰,形成一种“人机共生”的景象。
【关键词】机器人新闻 算法新闻 数字泰勒主义 人机共生
【中图分类号】G219
用机器人撰写新闻并不是全新现象。世界上第一个“故事写作机器人算法”40年前出现在耶鲁大学。①美联社也表示,多年前它就将新闻的自动化引入到体育和财经新闻生产中了。但不同的是,从前机器人撰写的“新闻”主要是数据简讯,可读性很差,现在则可以生产出直接面对读者的、更具可读性的新闻稿。
现在,机器人(算法)已被广泛应用于网络信息采集和发布。例如,在推特上机器人(算法)记者众多,如美国纽约公共广播电台(WNYC)推出的针对“美国全国大学体育协会”(NCAA)赛事报道的NailbiterBot②;监测美国联邦政府的支出情况的Treasury IO 机器人③等。传统媒体如《洛杉矶时报》则推出了地震预报机器人QuakeBot(它最先报道了南加州2014年3月的一次4.7级地震④)以及《纽约时报》推出的报道全美橄榄球联盟(NFL)赛事的4th Down机器人记者。在我国,上海“第一财经”可以使用机器人在互联网上爬拣信息,并按照类别分别执行200多种算法,同时基于对大量以往人类记者稿件的学习,可以自主预测判断出稿,然后由编辑人工审核。在2014年全球编辑网络高峰会议(Global Editors Network Summit)两天紧张的议程中,“机器人新闻工作坊”(Robot Journalism Bootcamp)⑤就占据了一下午的会议时间。这说明机器人(算法)新闻已经完全被体制化新闻业所接受并将得到更加广泛和深入的部署。
目前较为流行的新闻机器人算法是美国“叙事科学”(Narrative Science)公司与西北大学“梅蒂尔(Medill)新闻、媒体和整合营销传播学院”联合开发的。该公司总部离《芝加哥论坛》报(the Chicago Tribune)大楼只有咫尺之遥。在著名的传统报业集团总部的旁边就潜伏着很可能是“报业的终结者”,这似乎很具有讽刺意味。据“叙事科学”公司的创始人和首席技术官(CTO)克里斯蒂安·哈蒙德(Kristian Hammond)预测,在未来15年内,将有超过90%以上的新闻由机器人(算法)生成。他还认为,机器人记者“将在五年内”获得普利策新闻奖。⑥
一、机器人(算法)新闻的原理和流程
所谓“新闻机器人”,实际上是一套软件或算法语言(algorithm),它自动采集数据,然后撰写成人类可读的内容。“算法”指包含一系列非常复杂的数学规则、能通过预先设定的步骤解决特定问题的计算机程序。
机器人(算法)是如何生产新闻的?这个过程如一个“黑箱”,公众很难对之进行评判和监督。机器人新闻算法源代码的专利为谷歌专有,同时已被授权给包括“叙事科学”(Narrative Science)、“自动洞见”(Automated Insights)、“耶索”(Yseop)、“CBS互动”以及“未来幻象记者”(Fantasy Journalists)等公司使用。这些公司将谷歌的基础算法投入到具体应用中,因此对公众而言该技术的神秘性也逐渐降低。
为了增加公众对机器人(算法)生产新闻流程的理解,哥伦比亚大学新闻学院Tow 数字新闻中心曾以“叙事科学”公司的机器人(算法)新闻为例,对其进行“解剖”。⑦这个流程主要包括个5步骤:1.读入大量结构化和标准化数据;2.测量数据中的“新闻性”;3.找出合适的报道角度,如果有多个角度,则按照重要性排序;4.将报道角度与数据中的具体事实(story points)相匹配;5.生成报道文本。
我们在此将以上五步详细解读如下:
第一步,所有机器人新闻算法都需要先读入大量数据。因此,凡是数据丰富而“干净”(结构化和标准化)的领域(如天气和地震预报等)往往最容易开发出具有实用价值的自然语言自动生成系统。⑧在财经报道和体育报道领域,由于数据较为“干净”,因此也是机器人新闻蓬勃兴起的领域。如今,随着传感器嵌入的遍在化,大量“干净”数据出现,因而催生了所谓“传感器新闻”(sensor journalism)⑨,而传感器新闻可以被视为机器人(算法)新闻的初级版本。这也说明,机器人新闻是否可行,同时取决于数据的数量和质量。
第二步,数据读入完成后,算法就开始测量数据的“新闻性”(news worthiness)。一般而言,算法会挑出数据中最“反常”的方面,例如NBA赛事中的数据种类包括:得分总数、投篮命中率、三分命中率、罚篮命中率、篮板数、助攻数、抢断数、盖帽数、失误数、上场时间数、参赛场次数等等。算法会监测和比对历史数据,一旦发现“反常”,例如以上各数据种类中出现的“最高纪录”或“最低纪录”,或者在财经新闻中,股价或汇率变化高于或低于预期(无论这一预期是算法自己计算得出的,还是外部人员提供的),那么算法就认为此数据具有“新闻性”。
第三步,在确定“新闻性”后,算法接下来就会找出报道该新闻的“角度”(angles)。这些角度实际上是人类记者事先已经确定好的报道框架,⑩供算法选择。例如,对体育赛事报道的典型框架包括:“旗鼓相当的拉锯战”、“震撼全场的个人英雄主义”、“同仇敌忾的团队合作”和“后来居上的反击战”等等。算法在选择具体框架时,往往会参照前一步的“新闻性”特征。如果存在多个角度(框架),算法会结合“新闻性”给各个框架打分(1~10分),然后选择使用得分最高的框架。
第四步,报道角度(框架)确定后,算法接着从数据中选择相关部分,即所谓“故事点”(story points),如球员名字、得分等,以支持该框架。算法还可以结合比赛场地、球员背景等信息,按照“接近性”原则优先或重点报道相关球员的表现,包括自动从数据库中检索该球员的照片并自动嵌入报道等等。
第五步,对自动生成的新闻稿件从自然语言角度进行润色。这是技术含量最高的一步。“叙事科学”公司的算法会不断地回顾审读其所使用的框架以及相关的支撑性“故事点”,并将句子与人类自然语句相比对和替代。这一步的主要目的就是让算法生成的枯燥文字变得更加可读。有的算法(如“自动洞见”公司的算法)还会在报道文本的生成过程中加入随机因素,并且可以选择多种复杂的叙事语气(如“冷漠的”、“自信的”、“悲观的”和“充满激情的”等等)以让文本显得更多样。还有的算法(如“耶索”公司的)则能结合元数据(metadata),使得基础故事模板能够更加灵活,玩出花样,例如算法能根据主语的单复数而配套使用相应的动词形式,或者变换使用同义词,从而使文本读来不那么枯燥。
数据经由以上复杂的算法处理后产出的财经和体育类新闻报道,大多数读者都无法将其与人类记者生产的新闻区别开来。这说明,尽管机器人新闻也许会让很多人从感情上难以接受,但只要这些新闻能满足我们的信息需求,纠缠“作者是机器还是人”这个问题也许意义不大了。
二、机器人新闻生产面临的挑战
(一)机器人对新闻生产的复杂过程的“化约”过于简单
目前,美国三家主要机器人新闻算法技术公司的算法各有所长。“自动洞见”公司的算法善于模仿人类写作风格;“耶索”公司的算法善于灵活使用基本模板,组合使用,花样繁多;而“叙事科学”公司的算法则最接近真实的新闻生产——重视新闻报道文本生成过程中的“新闻性”(newsworthiness)和人类视角。但是,从前述机器人(算法)的内在逻辑可以看出,算法主要是对复杂的新闻写作过程的简化和提炼,是一种“以简御繁”的化约主义(reductionism),也就存在着“挂一漏万”的不足。例如,目前算法将“新闻性”定义为一种“对于常规的偏离”。而在真实的新闻生产中,“新闻性”是一个内涵和外延都极为丰富的概念,如哈卡普和奥尼尔(Harcup and O’Neill)就指出,决定现代意义上“新闻性”的有10个因素,包括:涉及权力精英、涉及名流、涉及娱乐、包含惊奇、坏消息、好信息、影响广泛、与受众有文化上的关联性、属于后续报道、符合媒体自身的利益等。[11]对这10个因素,程序员也许都能一一用代码来量化表达(这种化约性的量化表达,本身就可能存在问题),但如果一条数据同时涉及以上多个“新闻性”因素,算法如何充分体现出这些因素呢?算法是否能应对以及如何应对新闻报道中的复杂性,这对算法的编写仍是一个巨大的挑战。机器人新闻目前主要仍是基于少数几种有限的模板,风格和语调较为生硬。例如,2015年5月,美国NPR商业记者斯科特·霍斯利(Scott Horsley)和“叙事科学”公司的新闻软件WordSmith进行了一场比赛。他们就同一主题各撰写一篇新闻稿,斯科特花了7分钟,WordSmith花了2分钟。但是,NPR将两篇新闻稿公之于众,并请公众进行认可度投票,结果WordSmith获得了912票,而Scott获得了9916票,可见至少就以上两篇稿件来看,公众似乎更认可人类记者Scott的稿件。这也在一定程度上说明了机器人新闻目前存在的不足。[12](二)机器人(算法)也会犯错,而纠正其错误更难
将算法应用于新闻和信息的自动采集和发布,其初衷是为了节省人力,提高效率,避免因人的干涉而引入新的错误。但是,算法的自动采集和发布过程一旦被启动,如果源头数据存在瑕疵,加上人力无从及时干预和修正,则会带来广泛的负面后果。
例如,2014年3月,美国《纽约邮报》(New York Post)报道,此前失踪的NBA球员坤顿·罗斯(Quinton Ross)的尸体已被找到此新闻被其他新闻机构迅速抓取转发,其中就有谷歌开发的“维基百科实时监测机器人”(Wikipedia Live Monitor)。[13]该算法背后的设计逻辑是:在维基百科全球287个不同语言的版本中,如果多人同时对同一个条目的内容进行修改更新,就很可能意味着一条重大新闻正在发生。在2014年3月某天的下午3:09分,机器人监测到有五个人在三种语言的维基百科中对有关坤顿·罗斯的条目作了修改更新(其实这些修改是基于《纽约邮报》最早的误报),因此它判断认为这是一条正在发生的重大新闻,于是通过推特发出一条简讯:失踪球员坤顿·罗斯的尸体被找到,其死亡得到确证。该推特帖子被网民和其他机构广为转发。
但在其发出首条源头新闻的12分钟之后,《纽约邮报》发表更正说,弄错了,尸体不是坤顿·罗斯的,而是一名与该球员同名同姓的死者。尽管《纽约邮报》发出了更正,但谷歌算法因其设计逻辑局限(必须有多人同时修改维基百科的同一条目时才启动信息抓取和发布程序),并未重新抓取和发布更正信息,导致原来的误报谬种流传。
该例子说明,机器人(算法)既可以快速地采集和发布新闻,也可以快速地犯错。而且,因其高效率和人无法干预,它一旦犯错造成负面影响波及面更广。如果其信源比较权威(如美国地震监测局的数据源比较可靠),机器人新闻出错的可能性较小;但如果其信源来自社交媒体(如Facebook、Twitter和维基百科等),机器人记者就可能被操纵。例如黑客向机器人记者喂食虚假股市信息,从而造成股市极大波动。这一风险引起了学界的关注,如“美国数据与社会”研究所(Data & Society Research Institute)的研究员蒂姆·黄(Tim Hwang)就关注如何“通过机器人”监测社交网络中的误传信息(misinformation)以及哪些人能对之做出更正。但“通过会犯错的机器人监测人类或者其他机器人犯的错误”这似乎是一个悖论。
(三)机器人新闻生产过程需要消除“黑箱”,提高透明度
中国古代的庄子说,“得鱼忘筌,得意忘言”,其意思似乎是说,媒介内容重于媒介形式;麦克卢汉则指出,传播媒介(电视)也是内容(“媒介即讯息”)。基特勒(Fredirch Kittler)将麦氏的理论(主要针对电视)推广到数字媒介。他认为数字媒介的硬件和软件(图形用户界面)都具有隐蔽性。在软件的遮蔽下,用户看不到自己受到了硬件的限制;而软件本身可以使用户与计算机交流,同时却让用户一点都不知道背后的详细过程,还给人以一种开放的印象。基特勒认为,软件产品中已经事先被嵌入了权力结构,设定了“有限性、许可、特权和障碍”;预编程的机器其实不是被使用者所控制,而是真正的控制者。[14]由此看来,机器人新闻基于算法(软件),其运行如“黑箱”,具有隐蔽性,因此新闻机构有责任提高其透明性,以增强公众对机器人新闻生产过程的监督。在这一点上,人类新闻生产中已经存在的增加透明性的种种措施值得传承、借鉴。
哥伦比亚大学Tow数字新闻中心发布了“算法新闻责任报告”,[15]对如何增加机器人新闻生产的透明度提出了以下建议。
第一,增加算法本身的透明度。例如,主动提供或者依照美国的信息公开法案(Freedom of Information Act)向请求者提供算法的源代码。目前,在推特上,有些机器人(算法)的源代码是公开的,如 TreasureIO。[16]但是即使公开源代码,也不能保证机器人新闻算法具有透明度。首先,因为普通人看不懂源代码。我们所说的透明度,是“公开的”透明度;如果公开的源代码只有少数人看得懂,那么要求“透明度”的意义也就不大了。其次,源代码常常会迅速迭代,这会带来两个问题,其一,即使是编写算法的程序员本人对他(她)自己以前写的算法代码也不能全部看懂;其二,算法源代码在不断迭代后会存在不同版本,对到底该公布哪一版本的源代码尚无共识,因此即使公布算法源代码也不能当然保证其透明度。
有鉴于此,新闻机构在提高算法新闻透明度上能做的是:告知公众机器人在实际运行中带有的偏见、所犯的错误,并以普通人能够看明白的方式呈现出来。例如,《纽约时报》在使用橄榄球比赛报道时就采取了不少提高透明度的措施。该机器人在运行时参照2000年以来的美国橄榄球联盟(NFL)数据。《纽约时报》设立专门网页对其算法原理进行了通俗易懂的详细解释,而且对该机器人算法存在的偏见直言不讳,告知读者“尽管有大数据支撑,但和NFL教练相比,我们的机器人生成的报告倾向于更乐观”。
第二,为算法作出的判断提供更多背景信息。目前,机器人新闻算法对自己作出的判断还不能提供背景信息以帮助读者作出必要的校正。比如,现在凡涉及预测性新闻,机器人只会简单地说:“这是我从已有数据做出的预测。”至于它的预测背后的逻辑是什么,则无法提供解释。换句话说,目前,机器人在报道新闻时,只能报告它知道什么,还不能解释它是如何知道的,以及其对所知内容的自信水平(confidence level)。这时,新闻机构可以通过列出关键概念的定义、其判断所基于的预设以及存在的不足等方式,来增强机器人报道的透明性。
(四)算法新闻依赖社会整体数据化水平
我们现在正从“数字化”社会进入“数据化”社会。前者是后者的前提,后者则是前者的深化和遍在化。如前所述,机器人新闻不仅需要大量数据,还需要高质量的数据,这就与社会整体的数据化水平相关。例如,美联社前述关于Alcoa公司的新闻之所以能由机器人自动生成,前提是因为:首先,Aloca公司的业绩报告被以高度结构化的方式撰写和公开发布;然后,被一家名为Zacks的投资咨询公司编辑;再然后,被美联社导入到自己研发的算法中,算法将其中的关键数据和表达抽取出来并与其他背景信息相比对。所有这些都发生在千分之几秒之内,这一速度无疑是建立在整个流程的高度数据化和结构化水平之上的。因此,算法新闻的发展仅靠一两种工具(tools)是不行的,它需要整个行业乃至社会达到一定的数据化水平,形成一个庞大的数据支持生态系统(system)。
在我国,机器人新闻面临的最大挑战是社会数据化数量和质量水平不高。例如,受制于行业部门条块分割管理体制,各信息领域(如医疗保健、教育和文化艺术等)之间以及各信息领域内部割据,“信息孤岛化”现象非常严重,数据不能共享,不能产生整体效益,也导致重复建设,利用率低下。
三、机器人新闻带来的影响
尽管机器人新闻还存在很多不足,它仍然对现有新闻生产方式带来了巨大的变革性影响。
(一)机器人新闻预示着“新闻工业化生产”时代的到来
众所周知,传统新闻业的商业模式正在失效。新闻媒体为节省成本开始大幅裁员,但新闻生产是劳动密集型产业,裁员必然造成新闻总量的大幅下降,使得新闻业陷入一种恶性循环,让报业危机雪上加霜。而机器人成为报业逃出这一恶性循环的难得机会。
我们一般认为是科技发展刺激了传播业,但是传播业对科技也有着刺激作用。例如,弗雷德里克·柯尼格(Frederick Koenig)发明的蒸汽驱动滚筒印刷机是由《泰晤士报》约翰·沃尔特赞助发明的,并于1814年在该报率先使用;世界第一台双筒印刷机“何氏”(Hoe Type)滚筒印刷机也是在1847年被《费城公共记事报》首次采用。报业对技术的赞助和购买使用对技术的发明、传播和改进起到了重要作用。有了这些技术,报纸的发行量才得以大幅增加,售价大幅下降。因此“可以说是便士报将蒸汽印刷机引入了美国报业,而不是因为有了蒸汽印刷机才有了便士报”。[17]尽管现在的报业早已不如19世纪上半叶时那样财大气粗,可以投入大量资金推动高速印刷技术的改进,但今天美国报业和机器人新闻技术之间仍存在类似的互动关系,可以说是传统媒体推动了机器人新闻的应用和发展。相对于人类记者常用的“质化”信息采集方式,机器人新闻则完全自动采集、加工和发布,因此具有“快”、“准确”和“廉价”的特点。如在美联社,相同的时间内,人类记者只能产出300条新闻,而机器人记者能产出4400条新闻。[18]2013年,美联社使用“自动洞见”公司的算法自动生成了3亿条新闻,是世界上所有新闻媒体所产新闻的总和,2014年数量则达到10亿条。[19]算法新闻的“快速”和“准确”使它在突发新闻报道上优势明显。如2014年3月,《洛杉矶时报》以极快的速度报道了发生在加州的地震。该报道基于特定算法,从获取相关数据到成文发布仅仅用了3分钟,使得该报成为首发该消息的媒体。[20]这意味着,海量和多样的新闻将被以低廉的成本生产出来——新闻工业化生产时代到来。由于生产成本极低,此前某些靠人力无法实现,或者因成本巨大而不切实际的新闻信息领域将会得到开发利用,例如无论哪个名不见经传的体育队或小股票,读者都能读到实时生成的报道,这种根据用户需求即时生成的新闻速生速死,阅后即焚。
让-弗朗索瓦·利奥塔(Jean-Francois Lyotard)对“信息”和“知识”做了区分。他认为,信息与传统形式的知识完全不同。知识要求人类的创造、反思和冥想;信息则是表现性和实用性的,它是以计算机为基础的资本主义(这种资本主义将对数据传输的速度和效率放置在第一位)的货币。利奥塔认为,信息是为了加速资本主义市场而创造出来的“知识”:它的生产很廉价,易于交换,快速消费并被抛弃。[21]按照利奥塔的说法,机器人(算法)的引入使得(财经、体育和突发)新闻生产更加工业化,整体上新闻的“知识性”被削弱,“信息性”大幅增强。但更准确地说,机器人在新闻业中引起的变革是:它使得某些原本是“信息类”新闻的生产变得更为高效和准确,因而使得那些原本更具“知识性”特征的新闻获得更多注意,得到更精细的加工,因而变得更为优质。
(二)人类记者将更能发挥其优势,实现新闻生产的“人机共生”
2010年9月,美国《哥伦比亚新闻评论》杂志的封面是一只在轮子上拼命踩着轮子的仓鼠。新闻从业者迪恩·斯达克曼(Dean Starkman)在该期封面文章中指出:记者现在的生存状态如仓鼠,需要生产更多的稿件,这必然导致新闻质量下降。斯达克曼举例道:美国俄勒冈州波特兰市的《俄勒冈人报》(一家久负盛名,多次获得普利策奖的报纸)提出了创建“一流新闻与数字导向的企业”的口号,要求记者在2014年上半年要实现报纸网站发帖总数增加25%,下半年要实现增加40%;每个季度都要有两个重大项目;在“页面浏览量”和“读者参与”两个指标上也提出了更高目标。工作更多,资源更少、报酬更少,斯达克曼将记者比作累死累活的“仓鼠”,而迈克·舒德森则将他们比作亲人尽丧,孑然于世,同时也担心自己随时会离开这个世界的鳏寡孤独者。[22]记者所面临的以上困境突如其来。与从福特时代就开始的越来越多被机器取代的产业工人不同,新闻记者作为“知识工人”曾一度高枕无忧。但近年来机器人技术的发展,记者被列为9大即将被机器人取代的职业人士之一。[23]一些媒体已经径直宣布计算机很快将取代记者。[24]以上信息似乎说明记者和机器人不共戴天。但实际上,机器人记者却受到了人类记者编辑的欢迎。首先,如前所述,由于有了机器人辅助,新闻机构可以用同样数量的人类记者生产出更多的新闻;其次,机器人记者能将人类记者从枯燥的数字采集和分析工作中解放出来,使后者能去从事更有创造力的内容生产。[25]美联社也强调指出,引入机器人并非是为了取代人类记者:“目的是为了使用技术来降低新闻记者编辑的劳动强度,让他们有精力少处理些数据,多做些好新闻。而且在引入机器人的过程中,大多数美联社的记者编辑都持支持态度,并参与了全部讨论。” [26]20世纪初,弗雷德里克·泰勒提出“泰勒主义”认为,对于流水线工厂而言,效率是最高原则,因此有必要对工人操作的每个动作进行科学研究,以确保他们都用标准的方法作业,每秒钟都追求最大的效率。在泰勒看来,在工作中,是人要适应机器,而不是机器适应人。泰勒曾经说:“以前,人是第一位的,以后,体系(system)才是第一位的。”他还说,“思考是我的事情;工人们不用思考”。后来美国记者玛姬·杰克逊(Maggie Jackson)将该理论运用于数字传播,提出了“数字泰勒主义”的概念,我们唯有“多任务执行”(multitasking)才能应对数字信息大爆炸。换句话说,在数字时代,做“仓鼠”是新闻从业者的宿命。如果工业时代的泰勒主义是要求人的肌肉适应机器,信息时代的数字泰勒主义就是要求人的大脑也适应机器。“数字泰勒主义的唯一的标靶不再是我们的身体,而是我们的大脑。”
但是我们认为,只要人类处理得当,将机器人(算法)引入新闻生产并不必然会带来“数字泰勒主义”,让记者的“仓鼠”境遇更加恶化,而是相反,它可能扭转这一局势。对于人类而言,现在以及未来的新闻工作将会更加技术化,会充满着算法、程序和模板;同时也会更加人性化,那些能够与机器合作,同时又具有讲述好故事的能力、人文关怀和幽默情感的记者将是新闻市场中的稀缺资源。
未来的新闻报道,其基本事实的采集将由机器完成,而判断、分析、解释、预测、叙事、伦理、润色等则需要由人类完成。[27]在新闻生产中,新闻记者并不是直接和机器人竞争,而是在与机器人合作的过程中,如何充分展现人性。这种通过人机合作完成的将是一种复合型新闻产品,它在事实上如机器般精确无误,在可读性上令人回味无穷。
结语:新闻生产从数字泰勒主义到人机共生
人工智能研究的先驱、数学家马文·明斯基(Marvin Minsky)认为,人类要尊敬自己制造的机器人;不该将它们堆放在没有窗户的工厂里,干些没人乐意干的活;不该将它们当奴隶一样使唤。他不遗余力地鼓吹把人脑的智能装入计算机,以“让机器变得像人一样”。而发明了文字处理技术、鼠标和超媒体的神奇小子道格拉斯·英格巴特(Douglas Englebart)却提倡“电脑为人服务”的理念。上世纪五十年代,这两位宗师曾在麻省理工学院相遇,留下一段脍炙人口的对话。明斯基说:“我们人类要给机器赋予智慧,让它们拥有自我意识!”英格巴特回答说:“你要为机器做那么多好事?那你打算为人类做点什么呢?”现在,那些致力于使电脑界面更友好、更人性化、更以人为本的工程师们常常会讲起这个故事。[28]上海第一财经首席技术专家汤开智就说:“机器能帮我们做简单机械的事情,我们人类就可以腾出精力来做更高级的事情。”他显然是赞同英格巴特的立场的。
在机器人新闻时代,事实性报道将由机器人记者完成,解读性报道则将由人类记者完成。人类记者在写作新闻稿时,也将会尽量显示出自己是“人”,而不是“机器”,未来仍然是“人有人的用处”(控制论创始人诺伯特·维纳语)。所谓“公正”,并不是所有参与者都得到一样的,而是都得到其最适合的。在未来的人机关系中和新闻业中,最公正的场景应该是“人机共生,各司其职,相得益彰”。■
注释:
①参见:http://gel.msu.edu/classes/tc848/papers/Meehan.Tale-Spin.pdf
②参见:http://www.twitter.com/NailbiterBot
③参见:https://twitter.com/TreasuryIO和http://treasury.io/
④参见:http://www.slate.com/blogs/future_tense/2014/03/17/quakebot_los_angeles_ times_ robot_ journalist_ writes_article_on_la_earthquake.html
⑤参见:http://www.globaleditorsnetwork.org/programmes/gen-summit-2014/programme
⑥其意思并非是指机器人(算法)会打败人类记者而获得普利策奖,而是指普利策新闻奖将会设立“机器人新闻”奖项类别然后向机器人记者授奖。他说的是机器人与机器人的竞争,而不是机器人与人的竞争。参见:http://www.wired.com/2012/04/can-an-algorithm-write-a-better-news-story-than-a-human-reporter
⑦参见:http://towcenter.org/the-anatomy-of-a-robot-journalist
⑧参见:http://acl.ldc.upenn.edu/C/C86/C86-1132.pdf
⑨参见:http://towcenter.org/sensors-and-journalism
⑩“框架”(frame)的概念最早由人工智能研究的先驱、数学家马文·明斯基(Marvin Minsky)提出。他认为,我们的知识是以信息结构的形式贮存在记忆中的;表现出某种典型情景的信息结构称为“框架”。社会学者戈夫曼于1974年首次将框架理论运用到新闻传播学领域,指记者和新闻组织会借之以讲述故事的逻辑线条。通过媒介框架,受众能够更迅速地理解新闻但同时也容易形成刻板印象。
[11]HarcupT.& O’Neill, D. (2001). What Is News? Galtung and Ruge revisited. Journalism Studies2(2)261–280. http://doi.org/10.1080/14616700120042114
[12]参见:http://www.npr.org/sections/money/2015/05/20/406484294/an-npr-reporter-raced-a-machine-to-write-a-news-story-who-won 当然,这里需要指出两点:1.此前程序员让WordSmith模仿的是美联社“平实”新闻风格,而据说,若经过调整WordSmith也可以模仿NPR的“华丽的”或“更人性化的”新闻风格,这样公众的偏好倾向也许不会如此明显;2. NPR这样的比较投票其科学性不高,因为这并非人们真实的新闻消费场景,因此并不能准确了解读者的真实新闻消费偏好。
[13]参见:http://www.slate.com/articles/technology/future_tense/2014/04/quake_bot_4th_down_bot_robot_reporters_need_some_journalistic_ethics.html
[14][21][美]盖恩、[英]比尔著,刘君、周竞男译 :《新媒介:关键概念》第102页,复旦大学出版社2015年版
[15]参见:http://towcenter.org/algorithmic-accountability-2
[16]参见:https://github.com/csvsoundsystem/pytreasuryio
[17][美]迈克尔·舒德森著,陈昌凤、常江译:《发掘新闻:美国报业的社会史》第25页,北京大学出版社2009年版
[18]参见:http://blog.ap.org/2014/06/30/a-leap-forward-in-quarterly-earnings-stories
[19]参见:http://nymag.com/daily/intelligencer/2014/07/why-robot-journalism-is-great-for-journalists.html?mid=twitter_dailyintelligencer#
[20]http://www.huffingtonpost.com/2014/03/18/la-times-robot-journalism-earthquake_n_4985929.html
[22]引自:2015年3月迈克·舒德森访问复旦大学新闻学院时宣读的论文稿 “The Crisis in News: Can You Whistle a Happy Tune?” (Michael Schudson)
[23]参见:http://www.nbcnews.com/id/42183592/ns/business-careers/t/nine-jobs-humans-may-lose-robots/#.U7_-U41V0U4
[24]如:http://www.examiner.com/article/enter-the-robots-writers-ai-replaces-human-journalists-this-month?cid=PROG-NewsDM-IP-Article-EnterTheRobots-070814-10.15AM,以及:http://www.theaustralian. com.au/media/aap-considers-robot-journalism/story-e6frg996226979748460?nk=1dafda83a8603f0f4c9deb263 dfee42e
[25]ClerwallC. (2014). Enter the Robot Journalist. Journalism Practice, 8(5).
[26]参见:http://blog.ap.org/2014/06/30/a-leap-forward-in-quarterly-earnings-stories
[27]实际上,多年以来,美联社的新闻生产,特别是体育新闻,一直就涉及不同程度的自动手段,但“自动体育新闻”与“自动上市业报”有所不同,后者是人机合作的产物,由机器人记者提供数据,人类记者以之为基础撰写出新闻报道(stories)。
[28][美]凯利著,东西文库译:《失控:全人类的最终命运和结局》第50页,新星出版社2012年版
邓建国/复旦大学新闻学院副教授。本文为作者承担的国家社科项目《媒介融合深化背景下“数据驱动的新闻生产”之现状、趋势及支持生态系统研究》系列成果之一。