老谋何以深算?计算新闻的是与非
■彭增军
二十一世纪以来的新闻业,风雨飘摇。数字革命所引发的媒介生态的改变,使新闻业严重水土不服,遭遇了前所未有的生存困境。利润没了,受众跑了,广告这块蛋糕被硅谷新贵谷歌、脸书等搜索引擎和社交媒体蚕食殆尽。当然,科技革命颠覆的不单是新闻业,整个世界都在改变,包括人本身,君不见千禧宝宝新人类、新新人类乎?那为什么新闻业叫得这么凶呢?道理简单:整个世界都在媒介化、信息化,新闻和传播乃关键的关键,何况新闻业还是民主制度的基石之一。
所以,新闻业的救赎有点像一场悲壮的救亡运动,业界在喊:“我快完了!”学界回应:“给我顶住!你完了,民主怎么办?”从本世纪初喊到现在,无奈城陷寨塌,丢盔卸甲,而整个世界都醉在了手机里,只见狼烟,不见救兵,坏消息像后妈的巴掌,接踵而至。
当然不乏坚守的勇士,祭出各色旗帜突围:公民新闻、慢新闻(slow journalism)、正面新闻(positive journalism)、建设新闻(constructive journalism)、和平新闻(peace journalism)、感性新闻(affective journalism)等等。各面旗帜下的新闻实践,因对新闻理念的强调有所不同而各有千秋,但万变不离其宗,那就是对新闻专业主义理念的认同和坚持。但是,目前看来,摇旗呐喊的基本为小股义勇军,而非主流的体制新闻业。主流新闻业当然也强调传统的重要——它自己就是传统,但火烧眉毛的是生存,是商业模式,于是乎都在忙着设计和建设付费墙。然而,虽然非主流和主流的救亡调子和路径不同,商业和专业之间多有龃龉,难以同心同德,但有一点是共同的:那就是无论什么样的新闻,无论什么样的商业模式,无论什么样的旗帜,都需要专业的新闻人。坚持专业主义的根本是人,有了人,才谈得上商业模式,才谈得上转型。
然而,媒体转型方向都还没搞定,一个更具颠覆性的挑战横在了面前,这便是算法,以大数据、机器学习和人工智能为核心的计算新闻(computational journalism)。
计算新闻数年前还时髦,现在几乎成了常规。其实从历史上看,计算新闻也不能算是一个突然闯入的愣头青,精确新闻、计算机辅助报道、数据新闻等,都应该是计算新闻的前辈。然而,当算法羽翼丰满,开始渗透到新闻生产、消费的各个环节,特别是人工智能登台唱戏的时候,人们突然意识到:算法更像个潜伏者,时机一到,开始威胁到新闻人的主体地位。原以为算法是来救命的,没成想人家是来喧宾夺主的,搞来搞去,新闻人自己的饭碗都没了。曾几何时,大家一直在为社交媒体的入侵而耿耿于怀,却忽视了算法——这个躲在后面的黄雀。
无论从哪个角度看,计算新闻对传统新闻理念和实践的冲击将是空前的、颠覆性的。比如说,客观与主观等等的争论似乎变得很无趣,试问新闻人都成了客体,还谈什么主观?新闻还是人做的吗?传统新闻这个“老谋”,究竟该如何“深算”?
道可道:计算新闻的名与实
老子曰:道可道,非常道;名可名,非常名。这句话由于断句、理解不同,歧义多多。一般的解释,是说道可以表述,但不是一般理解得那样浅薄,也就是说要透过现象看本质,看影响、看后果,从亚马逊的花蝴蝶看到太平洋上的风。对计算新闻似乎也应该是做如此的考察。
何为计算新闻呢?社会科学的定义,不像自然科学那样干净利索,可以简洁明了成一个定理或公式。就计算新闻来说,定义有多种,每个定义都囿于定义者本身的立场和学科背景,所以容易纠缠不清。因此,我们不去纠结定义是否科学严谨,只看表述是否顺口顺耳。老话说名正言顺,其实也可以倒过来,言顺名正,言顺了,可以清晰表达了,那就证明我们的理解大致不差。
先说算法,算法即是用数学方法为解决特定问题或者达成特种结果而设计的系统步骤。计算新闻学,顾名思义,就是算法在新闻中的应用。但是,算法新闻不仅仅是算法的工具化。算法新闻学应该表述为两句话:头一句:用算法做新闻;第二句,做关于算法的新闻。
我本人还非常喜欢计算新闻学大拿、美国西北大学教授狄克帕洛斯(Nicholas Diakopoulos)的定义。他在最近出版的名为《自动化新闻》一书中写道:“Computational journalism is information and knowledge production with,by and about algorithms that embraces journalistic values.”这个定义巧妙地套用了美国总统林肯的名句:民有,民治,民享(a government of the people,by the people,for the people),这里照搬了英文,因为中文翻译实在不好“信达雅”,意思大致是说计算新闻是运用认同新闻理念的算法进行信息和知识生产,以及关于算法的报道。With就是算法在新闻生产和流通中的运用;By指的是新闻自动化,机器人写作;About是关于算法的新闻报道,算法是工具,也是对象,采用的主要手段为逆向工程,就是在算法不明的情况下,从结果来进行逆向推导,从而发现问题和偏差。沿着狄克帕洛斯教授的意思,我觉得一个更为简洁的英文定义可以是:journalism with,by and about algorithms。如果非要对应的中文的话,可以牵强称之为“算法成为对(队)友、对手和对象的新闻”。队友是运用算法来做新闻;对手就是计算机写稿子,抢新闻人饭碗;对象自然是关于算法的报道。
限于篇幅,这里主要讨论队友和对象这两大块。智能新闻涉及的问题更多更复杂,需要专文深入。
上面的定义和解释应该比较清楚了,然而,定义毕竟是定义,不一定是现实,那我们不妨回归实际,照录一则计算新闻的招聘启事。
招聘单位是大名鼎鼎的Propublica,数字新闻界的标杆,单是普利策奖就拿了三次,三次都是大数据驱动的调查报道。我们看一看他们对这个职位有着什么样的想法和要求:
职位:计算新闻记者
诚约隐形算法和社交平台记者加盟。有新闻工作经验者,欢迎;更鼓励有量化研究,包括统计学、数据科学、机器学习背景者申请。须懂编码。
职责:
1.编程,分析数据偏差和危害。
2.反向探求数据黑箱。
3.撰写方法论,向专家和公众解释分析过程、结果。
4.与其他同仁一道进行选题,数据获得、整理、检测和纠错。
5.整理数据,包括非结构性、杂乱无章的数据。
6.扒网站,包括不好扒的。
能力要求:
1.数据新闻工作经验,或者在学界或者研究机构做过统计和科学数据分析工作。
2.熟悉软件语言,在设计和新闻专业方面有提升的空间和兴趣。
3.新闻判断力。
4.思维清楚,写作能力。
5.细节和创新能力。
6.独立工作能力和自我约束力,团队精神。
7.熟练掌握数据分析工具,例如数据库系统管理、统计软件、excel等。
本科以上,研究生加分。
这个职位看重数据能力,基本是理科生的要求,但是也强调了写作能力。总结起来,就是左能写代码右能写新闻,要的是双枪陆文龙,而有没有新闻背景倒在其次了。这样的新闻人,当下的新闻学院恐怕还培养不出。
应运而生:计算新闻学的异军突起
计算新闻的兴起可以说有天时、地利,人和不和,要看谁来说,所以先不说人和。
首先,人类社会进入了数字时代,一切都在被媒介化,吃喝拉撒睡,工作、学习、点外卖、谈情说爱,都离不开媒介,没有钱包坦然出门,不见手机坐卧不安。媒介化的自然伴生物就是海量的、空前的人类和自然大数据。理科生说:当数据无所不在的时候,世界无非就是个算法,想想蛮有道理。麦克卢汉说:鱼不知道自己是湿的,确实,大数据不知不觉已经把我们这些鱼儿湮没。
仅仅有数据也是不行的,有了瓷器活,还要有金刚钻。这个金刚钻就是计算能力的飞跃。别的不说,想象量子计算机吧。
当然,不是说有了什么,有了什么能力,就一定要去做,比如有了核武器,也不能去毁灭地球,还要有正当性、必要性和紧迫性。
信息爆炸,从互联网算起,都炸了三十多年了,无限的信息,有限的大脑。单说新闻,一家日报几百条,美联社每天的原创新闻有1.5万条。YouTube上每分钟上传的视频有72个小时,视频总量超过了整个20个世纪生产的所有视频的总和。推特每天有4亿条推文,即使你只浏览百万分之一,你也要看四百条。
另外,人们的阅读趣味本来就是多种多样,在互联网出现以前,新闻信息大一统,新闻定制、新闻的个性化难以实现。而今,算法可以精确地计算并且推荐给读者需要的新闻和信息。
同样,大数据时代的新闻生产也迫切需要算法来挖掘数据,处理数据,发现新闻,呈现新闻。
人们的生活越来越被算法决定,而算法呢,看起来是客观、公平的数学公式,但是,这些算法公式却不是自然生成,任何编码的过程都涉及主观判断,涉及价值观、信仰、态度等诸多选择。何况人类世界有许多事物和价值是无法量化的,例如人的生命权、道德、尊严。虽然在保险公司里,在医院的急诊室,无数不可量化的东西都被变成了数字。一句话,算法和数据就是权力,而监督权力是新闻的天职。
新闻的算法和算法的新闻:算法和新闻生产
通常来说,算法有四项基本功能:
1.优先,
2.归类,
3.关联,
4.过滤。
这四种功能,参与甚至驱动了新闻生产、消费的各个环节。
首先,选题阶段。传统新闻不是靠新闻稿,就是靠爆料,现在则可以通过算法从数据中发现新闻。而新闻的确定也主要由反馈数据驱动——受众何时何地喜欢、分享了什么样的新闻和信息,都一目了然。
传统的新闻生产,选题确定以后,收集材料,主要靠采访,所谓“纸上得来终觉浅,须知此事要躬行”。不能talk the talk,而是要walk the walk,大白话就是要“迈开腿,张开嘴”。而现在,材料可以从数据中获得,通过对数据的处理和呈现,来诠释问题。
2016年普利策奖的调查报道依据的是著名的巴拿马文件。巴拿马文件涉及3150万份档案,在国际调查记者联盟的协调下,集中了全球400多位调查记者的聪明才智,最终完成了4700多篇报道,这些调查报道,直接导致不少权贵的倒台,包括爱尔兰首相和巴基斯坦总理。如此浩大的工程,在传统新闻时代是无法想象的。记者利用计算技术、OCR自动识别技术等,把这些文件整理出来,建立索引数据库,从而使这些死记录变成了活材料,30台计算机连轴处理,才将那些深藏于庞杂数字中的黑箱交易揭露出来。许多重大的调查报道就是这样通过计算技术扒出来的。有句老话说得好,所谓新闻就是被人试图掩盖的东西。道高一尺魔高一丈,新的技术同样可以用来将违法犯罪的痕迹伪装深埋,没有算法,基本不可能发现。
在新闻的呈现阶段,算法的优势更是明显,比如数据可视化。
在新闻在消费环节,各种推荐基本控制了我们每天的阅读。
算法的清算:计算新闻的是与非
算法新闻的亮点有哪些呢?
首先挑战了传统的新闻观。比如说什么是新闻?教科书说新闻是对过去以及即将发生的事件的报道,也就是说先有事件,后有新闻。而算法新闻则可以从数据中“无中生有”。换比较学术的讲法就是:传统新闻是反应式的,而算法新闻是主动和能动的。
计算新闻学通过数据采集、挖掘,整理和处理,进而呈现证据和结论,这个同传统新闻的理论和实践有着根本的不同。传统新闻秉承客观中立,通过消息源多方描述和验证事实,自己不下结论,而是让读者去判断是非曲直;计算新闻在传统的新闻中立的基础上进了一步,直接让证据说话,有点直接揭示真相的味道。
教科书说新闻要“新”,所以说要抢新闻。先前说社交媒体时代,人人可以做记者,新闻记者快不过当事人,还是绕不过一个“新”字。计算新闻的个性化新闻体验,在某种意义上超越了新闻的时间性,新闻不再是不发表就发霉(publish or perish)。因为每个人的新闻是不同的,新与旧变得不那么重要,只要这个新闻你没看过,只要对你有用、有趣、有关,那它就是有价值的新闻。
算法有助于新闻的专业性。目前,由于社交媒体的兴起,新闻的消息功能被消解,因为受众可以从无数非新闻渠道获得信息。新闻业的价值在于分析和阐释,利用算法来揭示隐藏的关联。
算法可以减少大量简单重复性劳动,使记者拥有更多的时间致力于事实的验证、解析和传播,同时也降低了成本。从这一点上讲,算法新闻从理论上有助于深度和调查报道。之所以说理论上如此,因为在实践上未必可行。据美国调查记者编辑协会的统计,一篇调查报道平均需要六个月的时间来完成,成本高,风险大。事实也不容乐观,虽然有算法的协助,全球调查报道量同十年前相比下降了一半还多,而已有的调查报道多半是非市场行为,比如说非盈利新闻机构的报道,或者是为了普利策奖。
算法新闻有哪些值得警惕的问题呢?
首先是新闻的独立自主被削弱。从开始的数据驱动,到现在的人工智能、机器人写稿,新闻人的主体地位在逐渐丧失,算法已经有些喧宾夺主,以后恐怕会得寸进尺,反客为主。也许有人说,无论什么样的算法,总是人在背后编码。这话没错,然而,所谓主体性,不是什么人掌控新闻都可以成就主体性,当算法都被硅谷编码员控制时,新闻的主体性专业性难道不是问题?
其次,数据本身并不无辜和干净,无论什么样的数据,都是社会政治经济的产物,因而必然带有这个社会的所有弊病,甚至还创造了新的歧视和不平等。比如说健康数据,肯定是有益于中产阶级以上的富有阶层,因为穷人看不起病,因而关于穷人的健康医疗数据就很少甚至没有,根据这样的数据算出的结果,势必影响到政策、资源的倾向性。比如说,医疗资源会更多用于富贵病而不是营养不良。
算法最为人称道的而且最被广告商看重的是是数据驱动的新闻消费个性化。这种个性化推荐,同以往的个人定制不同,个人定制仍然是读者的主动行为,而个性化则是根据算法推出的。其过滤的结果必然是人们只选择爱听的、顺耳的,人人都“躲进小楼成一统,管他冬夏与春秋”,结果必然是一个个“井底之蛙”。也许有人抬杠说,你可以自己主动选择有营养的新闻嘛。话是没错,但是我们知道推荐是非常重要的,推荐多了,你不免会点击,点击成习惯,习惯成自然;再说,你怎么会知道除了被推荐的还有别的什么好东西?结果社会被自私与狭隘的自我中心者充斥,这也许可以解释为什么有那么多的人,公共场所肆意妄为,如入无人之境。
当然,每个人都有不同的信息需求,也有权利追求自己的趣味,哪怕是不那么高级的趣味。有人认为,不必为此大惊小怪,因为在算法之前的充斥着传统新闻的也不是什么太平盛世,无非是主流媒体设置议程,弱者的声音被边缘化,今天未必比过去糟糕。事实也许如此,但逻辑不对,不能说昨天也不怎么样,就不能批评今天,何况更重要的是要着眼于未来。
最后,还有一个非常重要的问题值得讨论:如果说新闻专业主义的灵魂是公共服务,那算法主导的计算新闻正在把大众媒体变成个性媒体,当同样的事实,推送给每个人时变成不同的故事,社会共识如何形成?新闻的公共性又在哪里呢?■
彭增军系浙江大学宁波理工学院三江学者、美国圣克劳德州立大学教授。