上一期
下一期
目录
  • 49页
  • 50页
  • 51页
  • 52页
  • 53页
  • 54页
  • 55页
放大 缩小 默认 上一篇 下一篇
大数据与新闻报道
■陈力丹 李熠祺 娜佳
  【本文提要】 大数据指在互联网保留下来的远超出传统数据库的海量数据。新闻媒体通过使用一定的运算方法对大数据进行分析可以深化新闻叙事和对事实作出准确判断,对未来进行预测报道,满足用户的定制信息要求,使得数据可视化和具有交互性。然而,利用大数据做新闻,记者还面临着一系列值得注意的问题。我国新闻媒体运用大数据报道新闻方面尚处于初级探索阶段,需要借鉴国际同行的经验。
  【关键词】 大数据 数据新闻 新闻生产 深化新闻叙事 信息定制 
  【中图分类号】 G212
  如今从每天日常开销的记录,到手机里成堆的电话号码,再到全世界、全中国的社会经济发展数据,都可以被记录下来。我们已经被海量的数据所包围。于是“大数据”这个词流行起来了。大数据,即我们使用互联网的各种路径和形态时留下的海量信息和信息痕迹。最近两年,人们在互联网留下的信息和运用各种社交媒体留下的信息痕迹,等于自有记载以来人类保留的信息总和。仅一个百度搜索引擎,每天获得的人们点击搜索的数据,便有60亿次。大数据的数据量之大,远超出传统数据库软件工具的抓取、储存、管理和分析的数据量。对此,我们从计算机中储存信息的单位之间的关系可以有所体会。
  计算机最小的存储单位是byte,1K=1024Byte,1M=1024K,1G=1024M,1T=1024G,1P=1024T,1E=1024P,1Z=1024P。2011年时,全球的数据量就已经达到1.8Z,预计2015年将接近8Z。面对这样巨大的数据量,我们传统的数据组织和处理模式已经无法满足其需求,再加上大数据具有规模大、价值高、交叉复用等特征,①不同行业、不同领域的数据之间的交换与相互利用也变得十分频繁。这就意味着对于数据的处理、分析、分享、挖掘等能力有前所未有的提升。
  显然,大数据对人类把握自身整体发展具有重大意义。大数据也对社会各个领域把握自身的发展具有重大意义。大数据对新闻报道呢?尽管新闻是具体的,可一旦大数据的运算加盟新闻报道,便催生出大数据新闻,对新闻生产方式的影响也是巨大的。对不同领域、层面的大数据进行分析、处理后,可以通过可视化和叙事化的手段,创作出一种新的新闻报道方式。②这种报道方式主要包括四个环节:对原始数据的收集、对数据的分析和过滤、将数据可视化、形成具体的新闻报道。
  大数据新闻不是一夜之间就有的,它的萌芽是从计算机辅助报道(computer assisted reporting)③开始的。20世纪50年代,美国就有媒体记者利用大型计算机对政府提供的数据库中信息进行分析,以发现和调查新闻事实。④记者在政府机构、企业等所发布的有限数据中,发现新闻选题或者将这些数据作为佐证发现、拓展报道深度的重要资料。而在如今大数据的背景之下,记者能够获取和利用的数据相较而言是那时的天文数字的倍数。
  大数据新闻有别于精确新闻和数字新闻。精确新闻由美国学者、新闻记者菲利普·迈耶在20世纪60年代提出,⑤指记者在采访新闻时运用调查、实验和内容分析等社会科学研究方法来收集资料、查证事实,从而报道新闻。这类新闻报道20世纪70年代风行于美国新闻界。80年代,中国新闻界开始运用这种新闻报道方法。它的特点是用精确的具体数据分析新闻事件,以避免主观的、人为的错误。它侧重于微观的具体调查、实验和内容分析。而数字新闻,则指以数字、公式、字母等静态形式来辅助文字报道。现在所说大数据新闻,显现的是对大数据的挖掘与处理的结果,可以通过复杂的交互式、动态化的图片和视频来呈现这类新闻。
  
一、大数据新闻的功能与优势
  目前,在大数据新闻制作上已经积累了经验的国际媒体有《卫报》《纽约时报》《华盛顿邮报》等,但它们也处于探索阶段。通过对国内外代表性媒体的大数据新闻实践进行研究,可以总结出大数据新闻的四个功能,即描述、判断、预测、信息定制。
  1.新闻叙事
  《卫报》网页2012年1月5日发布了一个有关“阿拉伯之春”的大数据新闻报道。⑥报道利用动态图表,以时间轴为主线描述了自2010年12月一突尼斯男子自焚至2011年12月的一年间,17个阿拉伯国家发生的一场政治运动。网民可以通过这个四维动态的报道,清楚地从宏观到微观,全面了解阿拉伯之春在不同国家的不同表现形式。图表上方设置了时间的推拉按钮,网民推拉到自己想观看的时间点,可以清楚地看到相同时间点上不同国家发生的相关事件。画面的下方是各个国家的标签,网民也可以通过国家标记,来关注某个具体国家在纵向时间轴上的政治演变进程。不同的政治事件用不同颜色来标示:绿色为群众性抗议活动,浅蓝色为国际上的相关反应,黄色为政治事件,红色为政权更替。如果网民想了解某个事件的具体内容,点击不同颜色的标示,随即获取深度报道的链接。这种新闻报道方式,将涉及十几个国家、时间跨度长达一年的复杂的“阿拉伯之春”,以明晰的动态方式呈现出来,纯文字报道难以达到这样的传播效果。
  大数据新闻还能够描述那些看不见的短期过程,比如流言如何在社交网络上传播。⑦《卫报》通过追踪分析260万份推特内容,利用可视化动态图表描述了从流言开始传播到辟谣结束的整个过程。它也是以时间为轴,利用圆圈大小、颜色变化来描述整个过程,绿色的圈代表散布流言的推文,红色的圈代表更正这个流言的推文,灰色的是中立的评价推文,黄色的是对流言持怀疑态度的推文。圈的大小代表了推文的影响程度,圈越大影响程度越大。如果想了解具体的内容,点到哪个圈,屏幕旁边即刻呈现这个圈所代表的推文的发布者、发布日期、转推人数等等信息。通过这个动态的演进过程,人们可以清楚地看到,社交网络并不像一般想象的那样,是一味扩散虚假消息的场所。其实在假消息出现不久,社交网络上各种辟谣的消息就已经出现了。
  从这两个例子可以看出,大数据新闻的报道方式能够在宏观上对某个事件看得更加清楚与全面,事件复杂的演进过程以及这个过程中的各个方面,都能描述得直观且有趣。
  2.事实判断
  2011年8月,一个黑人穆斯林男子乘出租车在伦敦街头遭到警方拦截,双方发生枪战,该男子当街死亡。两天后,约300人聚集在伦敦市中心的警察局进行抗议,后来演变成持续多天的骚乱事件,抗议者引燃了汽车、商店和公交车。当天夜里,伦敦其他地区也发生了类似袭警、抢劫、纵火等事件。一些媒体评论指出,这与贫富差距有关。英国首相卡梅伦接受采访时,声称骚乱事件与贫富差距无关。
  英国《卫报》记者利用大数据的分析结果,做了关于这一事件的系列报道,其中的一个报道主题,便是骚乱与贫困有没有关联。⑧记者利用谷歌融合图表,在伦敦地区地图上标记出骚乱分子的居住地信息(黄色点)、实际发生骚乱的地点(灰色点),以及贫困地区分布(越偏红色表示越贫穷)。根据这张伦敦市中心的图,网民可以将图扩展到整个大伦敦地区来看,也可以聚焦到具体的街区放大来看,观察每个被标记的骚乱点的人流从哪里来,到哪儿去,从而清楚地看到贫苦与骚乱之间存在的某种关联。这种关系的表达,比起单纯的文字报道来,表现清晰,说服力强。
  3.预测走向
  2013年“十一”长假期间,九寨沟发生游客大量滞留现象并引发群体性事件。如果新闻媒体或旅游当局能够在此前运用中国的局部大数据进行预测性报道,完全可以避免这样的群体性事件发生。因为传媒可以根据这方面的大数据,提前报道在哪个具体时间段内,有多少人从哪些地方前往九寨沟,其中男人、女人、老人、儿童各有多少等等。
  这只是一个小例子,大数据能够预测社会和人们日常生活中的各个方面。通过挖掘大数据,传媒在技术上可以制作出可视化、交互式的图表,告知很多事项。微观的如流行疾病来袭、交通拥堵情况;宏观的如经济指数变动、某种社会危机的来临等等。百度开辟了“百度预测”网页,以“大数据,知天下”的口号推出,⑨预测的产品有高考、世界杯、电影票房等等。它们后期准备上线的产品扩展到了更广的领域,比如金融预测、房地产预测等等。
  4.信息定制
  利用大数据的分析结果,满足网民的信息个性化要求,是国外媒体的最新尝试。例如Five thirty eight数据博客,在2014年5月23日新辟读者来信专栏“亲爱的莫娜”。⑩其第一期开篇语阐释的目的是:“我开这个专栏是为了帮助读者回答一些生活中重要的或者严肃的问题,比如我是不是很正常、我处在世界的哪个地位层面等等,目的不是为了给读者答疑解惑,不是告诉读者应该做什么和不应该做什么。恰恰相反,我提供数据来解释、描述你的经历。”
  综观这个专栏,读者的提问五花八门,比较严肃的如:“美国有多少人从来没有喝过一滴酒?”“美国有多少男性空乘人员?”也有比较私人的如:“我该多久换一次袜子?”“婚前同居会不会导致离婚”等等。专栏作者利用美国范围内的大数据,即刻将分析结果告知当事人,但避免给出指导性意见,仅告知各种数据的分析结果,让网民自己依照分析结果来处理自己面临的问题。这个专栏与传统的纸媒读者来信专栏不同,不是通过星座、血型、生辰八字或伪装成阅历丰富的专家,来提供些心灵鸡汤式的回答,只用数据来说话。
  这种尝试在媒体中并不少见。2011年,BBC广播公司曾根据2012年政府的财政预算联合毕马威会计师事务所做了一个预算计算器,用户只需要输入一些日常信息,例如买多少啤酒,用多少汽油等,就能够算出新的预算会让你付多少税,明年生活会不会更好。
  根据用户需求提供个性化的大数据服务,是未来的发展趋势。这些报道有一个共性,媒体都致力于以用户的需求为中心,利用大数据诠释宏观社会现象对用户的影响,或者回答用户困惑的问题。媒体可以精准定位,经过后台计算,按照用户的接收习惯、工作习惯和生活习惯将服务推送到用户眼前。
  
二、科学运用大数据做新闻
  目前运用大数据分析做新闻尚处于摸索阶段,媒体和当事记者在操作过程中要设想到一系列可能发生的问题。下面分三个方面做一论证。
  1.数据的全面性和客观性
  大数据不等于全数据、真数据。记者既要保证从不同信息源拿到足够多的数据,也要对这些数据的客观性进行考察。与传统的抽样统计相比,大数据的优势在于拥有足够多的原始数据。互联网时代的人际关系、社会活动、地理位置等一切信息都可以被转换为数字,因而为全面获取数据提供了可能性。大数据的来源有很多,新闻报道、门户网站、搜索引擎、社交网站、政府和企业的统计、物联网和传感器的检测,都是获得数据的来源。全面获取数据,是将大数据分析运用于新闻报道的必要基础。
  获取了足够多的数据之后,要对数据做客观的判断。一般人习惯默认数据是客观的,是真实世界不容质疑的数字表征。事实上,正如《原始数据只是一种修辞》一书的作者丽莎·吉特曼所说:“数据从来都不可能是原始存在的,因为它不是自然的产物,而是依照一个人的倾向和价值观念被构建出来的。我们最初定下的采集数据的办法已经决定了数据将以何种面貌呈现出来。数据分析的结果看似公正客观,其实价值选择贯穿了构建到解读的全过程。” [11]照相术刚发明之时,人们普遍认为它能够担当起真实再现客观世界的任务。但后来人们发现,照片说谎的技巧比文字更加高超。如今对大数据的期待,类似于当初对照相术的期待。数据并不完全是客观存在,也不完全是客观存在的真实写真。它的定义和界定、统计方法、统计范围等等,包含和传递着某方面的价值判断,也决定着数据反映真实的程度。
  2010年,《卫报》和维基解密合作,根据维基解密公布的伊拉克战争的秘密文件,制作了如图所示的死亡地图。[12]图中每一个红点表示一起记录在案的死亡事件,点击每一起事件可以看到事件性质、死亡人数等具体数据。该报利用大数据做新闻是一直走在前列的,这幅地图是一个很好的例子。但是,这副新闻地图是否客观反应了伊拉克战争中死亡事件的全貌?后来有专家对这幅地图提出质疑。第一,这并不是所有的死亡事件,而是被多国联合部队一方记录在案的死亡事件。第二,怎样的事件达到了记录在案的标准?驻扎在伊拉克的每一个军事单位规定的标准不一样,战争前期和后期的标准也不一样,战争后期的记录更加全面。第三,只记录造成死亡的事件,是对战争全貌的一种偏差反应。因为一起事件,尤其是针对平民的事件是否造成死亡是随机的。因此,要通过这个地图推断伊拉克战争中暴力事件发生的某些特点和规律是不合适的。[13]数据并不完全是客观的,如果用推特的数据分析社会事件或者社会动态,记者要注意到推特的用户主要为高收入的年轻群体,它并不能反映一定范围内所有人的全貌。如果报道调用警察局的犯罪记录数据库,要同时考虑到为了降低犯罪率而刻意不把某些案件记录在案的事情时有发生。因此哥伦比亚大学计算新闻学课程教授乔纳森·扎瑟(Jonathan Stray)提出,记者在获取数据时,一定要多问几个问题:“这些数字是哪里来的?”“谁记录了这些数字?”“怎么记录的?”“出于什么目的收集这些数据?”“我们怎么才能够知道数据是完整的?”“这些数据的人口统计信息是什么?”“用定量的方法解决这个问题是正确的吗?”“这些数据中不包括什么?”“这些数据的结果会对谁不利?”“数据是始终如一的,还是由不同人统计的?”“为了生成这些数据,需要做出哪些随意的决定?”“这些数据与其他来源的数据相符吗?有谁已经分析过这些数据了?”……[14]记者面对数据,要多问几个这样的为什么和怎么样,拿到元数据(关于数据的数据)。不仅了解数据是什么,还要了解数据的产生过程。
  2.科学地分析数据
  拿到所有数据之后,需要做的下一步工作是建立运算模型,通过大数据的分析,还原客观的趋势或现象。做这类叙事报道的数据分析,重在建立准确的分析模型,谨慎得出结论。数据自己不能说话,记者需要借助一系列算法在数据中挖掘出意义。算法不等于判断,从数据世界进入现实世界是一个充满风险的过程,稍有不慎就可能做出错误的报道。
  2014年央视和百度合作的大数据电视新闻“据说春运”就犯了这样的错误。节目中主持人利用了这样一组根据大数据得出的分析:春节期间,搜索相亲的人中,78%是男性,这中间,20~39岁的人数占79%。因此该节目得出结论,这个年龄段的人群,可能正在路上,心里盘算着怎么躲过父母安排的相亲呢。[15]事实上,20~39岁中搜索相亲的男性,他们都是未婚人群吗?如果未婚,搜索相亲一定代表他们在谋划着如何躲过父母的相亲吗?在利用数据还原现实时,如果记者带入太多随意和武断的推论,新闻的客观性将受到质疑。
  判断型报道要求记者通过大数据做出判断,解释不同事物之间的因果联系。大数据通常只能揭示两个变量之间的相关性,相关并不等于因果。A变量和B变量之间存在相关性,可能是A导致B,可能是B导致A,可能还有其他因素C、D……同时导致了A和B的变化;或者A和B之间的联系只是偶然的等等。利用大数据分析发现相关性后,证明这种相关性的因果联系,还需要记者的进一步调查和严谨的逻辑推论。
  美国新闻聚合网站嗡嗡喂(buzzfeed)的数据科学管理员哈林(Ky Harlin)做了一些图表,表达这个世界上匪夷所思的相关性,例如巧克力销量上升和谋杀案件上升之间呈正相关、有机食品消耗量和孤独症患者数量之间呈正相关。[16]这些明显风马牛不相及的“相关”,不会导致读者得出因果联系的结论。如果记者报道中获得两组数据间的相关关系,这种相关关系又正好符合记者的预先判断,误解就很可能发生。
  现在传媒可以通过对大数据的分析做出预测型报道。预测是否准确,关键在于数据呈正态分布。但是,我们生存的世界是一个复杂的系统,“黑天鹅事件”时有发生。黑天鹅事件指的是偶发的重大稀有事件,它在意料之外,却又改变一切。经济危机、革命、“9·11”事件都属于黑天鹅事件。黑天鹅事件呈幂律分布,不可预测。记者用大数据做报道时,应该对自己运用的工具抱有几分怀疑,对现实世界再多几分敬畏。
  3.遵循新闻职业道德
  现在各方面的大数据庞大且易得,以前几乎不可能获得的信息,例如特定人群的行为习惯、社交活动、健康状况等等都有可能获得。虽然掌握着用户大量数据的主体不是传统媒体,但媒体和掌握各方面大数据的组织可以建立以利益为背景的合作关系。当特定的报道题目涉及用户隐私时,媒体有可能违背职业道德,利用这层关系获取数据。如果用户向媒体提问:“我的儿子刚17岁,已经发生了性行为,这在现今的青少年中是不是普遍呢?”媒体会不会为回答用户的提问而挖掘牵涉用户隐私的这部分数据?各种与新闻职业道德相关的是非判断,会在媒体运用大数据分析进行新闻报道时,以新的形式再次挑战新闻报道者的职业道德理念。
  
三、我国利用大数据新闻需要做的三件事
  目前,国内利用大数据做新闻还处于起步阶段。央视和百度2014年初合作的“据说春运”、“据说春节”专题是大数据新闻的有益尝试。这两组报道利用百度指数、百度地图定位等技术,报道春运最火路线、春节期间人们最爱吃的菜等(节目尚存在推论武断、数据获取不够全面等问题)。这一尝试目前仅偶尔为之,没有成为一个固定的新闻节目。三大门户网站都开辟了利用大数据解读新闻的栏目:网易的数读,搜狐的数字之道,新浪的图解天下。它们主要将数据进行纵向时间上的或者横向空间上的比较,静态图表呈现,与国外媒体的大数据新闻实践尚存在较大差距。
  有鉴于此,现在需要做的三件事是:
  1.打破传统思维,选题出新。选题上思路打不开,是目前大数据新闻难以引发人们关注的显在问题。着眼点应是:哪些是以前不敢想象的报道、不能做到的报道?这方面,国外一些媒体的实践已经给我们提供了很多参照系。
  2.呈现新闻告别静态图表,与先进制作技术接轨。利用动态图表和交互式图表,生动展现新闻事件全貌,提高用户参与度和界面友好度,是大数据新闻呈现的核心优势。只要想到,对目前青年一代新闻工作者来说,做到应该不是难事。
  3.新闻专业人员与IT专业人员结合,组成大数据新闻团队。根据国际同行的经验,大数据的新闻团队均由新闻专业人员与产品研发人员、数据分析人员组成,后者充分融入媒体生产流程,其情形如同《芝加哥论坛报》的新闻应用团队所说,他们就像潜入新闻编辑部的一支快乐黑客团队,常在与记者面对面的交谈中找到他们需要做的东西。[17]■

  陈力丹系中国人民大学新闻与社会发展研究中心教授,李熠祺、娜佳系该校新闻学院研究生。
  本文为国家社科基金重大项目(批准号:13&ZD182)研究成果。
  
注释:
①苏萌、周涛:《大数据商业革命》,2012 年夏季达沃斯特刊(2012-09-13),http://www. sootoo. com/content/340794. shtml.
②http://en.wikipedia.org/wiki/Data-driven_journalism③ http://en.wikipedia.org/wiki/Computer-assisted_reporting
④卜卫:《计算机辅助新闻报道:信息时代记者培训的重要课程》,《新闻与传播研究》1998年第1期(1)
⑤《数据新闻的视角》,《数据新闻手册》,http://xiaoyongzi.github.io/web/intro_3.html
⑥Garry Blight,Sheila Pulham,Paul Torpey,Arab spring: an interactive timeline of Middle East protests,http://gu.com/p/2nf4k⑦ Rob ProcterFarida VisAlex Voss,How riot rumours spread on Twitterhttp://www.theguardian.com/uk/interactive/2011/dec/07/london-riots-twitter⑧ The Guardian,England riots: was poverty a factor?http://www.theguardian.com/news/datablog/2011/aug/16/riots-poverty-map-suspects
⑨百度预测,http://trends.baidu.com⑩ 方可成:《“我32了,还跟人合租,是不是太屌丝了?”》,http://www.fangkc.cn/2014/05/am-i-normal/
[11]徐端:《大数据战略》第59页,新世纪出版社,2014年版,p59
[12]Wikileaks Iraq war logs deaths mapped,http://www.theguardian.com/news/datablog/2010/oct/23/wikileaks-iraq-data-journalism
[13]Jacob ShapiroWikileaks Iraq: what's wrong with the data?
  http://www.theguardian.com/news/datablog/2010/oct/25/wikileaks-iraq-data
[14]Jonathan Stray著,方可成译:《记者在做报道时应如何解读数据》,http://www.fangkc.cn/2014/01/drawing-conclusions-from-data/
[15]《据说春运第二期:近八成游子怕“逼婚”》。http://mp.weixin.qq.com/s?__biz=MjM5OTMxMTMwMg==&mid=200010760& idx=1&sn=d34543178ad316e37d1b41e82a7abd56&uin=Njg5ODk4NDA%3D
[16]http://www.buzzfeed.com/kjh2110/the-10-most-bizarre-correlations
[17]《新闻编辑室的运作》,《数据新闻手册》,http://xiaoyongzi.github.io/web/index.html
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
主管单位: 上海报业集团
主办单位: 上海报业集团      上海社会科学院新闻研究所