上一期
下一期
目录
  • 28页
  • 29页
  • 30页
  • 31页
放大 缩小 默认 上一篇 下一篇
大数据浪潮中的传媒业
——兼谈大数据讨论的若干误区
□王武彬
  【本文提要】本文围绕大数据与传媒业的关系提出了与众不同的观点,指出大数据概念存在误读,大数据对媒体的价值不宜高估。同时,大数据时代核心理念对媒体又是至关重要的,这主要体现为媒体应视数据为重要资产和生产资料,它可以被广泛应用于媒体的辅助经营和报道。
  【关键词】大数据 传媒业 辅助经营和报道 
  【中图分类号】G210
  大数据无疑是2012年最红火的概念。它不仅意味着一次颠覆性的IT技术变革,由于产业融合和学科渗透的程度越来越深,也成为《自然》《哈佛商业评论》和《哥伦比亚新闻评论》同时关注的领域,IT业、互联网业、媒体业、咨询业共同讨论的话题,硅谷、华尔街、五角大楼一起瞩目的趋势,对政治、经济、商业等领域都产生了深远的影响。
  身处这个大数据时代,大数据的价值似乎已经毋庸置疑。媒体业也在热切关注着这一浪潮,大数据甚至跻身传媒业成为年度热词。①然而从现实来看,媒体业并没有能在这个新领域乘风破浪地前进,大数据也没有许给媒体业一个笃定明朗的未来。围绕大数据与传媒业,本文试图提出以下观点:
  (一)大数据概念存在误读。时下谈到的大数据案例大多与真正的大数据无关。
  (二)大数据对媒体的价值不宜高估。大多数媒体机构在大数据领域并不具备颠覆创新和业务转型的条件。
  (三)大数据时代核心理念对媒体至关重要,媒体应视数据为重要资产和生产资料,辅助经营和报道。
    
对大数据的误读与迷思
  大数据一经提出,就迅速和“革命”、“时代”等宏大概念配搭,无处不在甚至无所不包,其基本内涵反而被模糊。那么大数据究竟指的是什么?研究机构Gartner给出的定义是:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。②咨询机构麦肯锡则提出:大数据是指其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集。③简单地讲,大数据定义了传统模式(或流程、工具、手段)无法处理的数据集。
  大数据概念的提出,是因为其所定义的数据集的信息量超出了现有基础设施的承载能力,多样性超出传统流程工具的处理能力,实时性超出现有IT架构的计算能力。换言之,大数据的特征可以用“4V”来描述,即:(1)Volume,数据量大,计算量大,从TB级别跃升到PB级别;(2)Variety,数据来源多、数据类型多,传统方式无法轻易捕获和管理;(3)Velocity,增长速度快,数据处理的速度必须满足实时性要求;(4)Value,价值密度低,商业价值高,沙里淘金却又弥足珍贵。
  可见大数据并不复杂,和新媒体一样是个相对的概念。人们无法回答“多大的数据才能叫大数据”这样的问题,只能说随着数据量持续高速增长,发现分析处理力不能及时跟进,这样一个术语因此应运而生。企业内部的经营交易信息,物联网世界中商品、物流信息,互联网世界中人与人交互信息、位置信息构成大数据的三个主要数据来源,④共同揭开了大数据的序幕,促使海量数据在渐变中完成了从量变到质变的飞跃。透过大数据,人们能够发现知识、提升智能、创造价值。而相关的技术、应用和产业,都可纳入大数据的范畴。
  然而,诚如EMC公司首席营销官Jeremy Burton所说,大数据这一术语和“云计算”等一样,被炒作赋予了太多的意味。现实是,大数据已经成为一个充满魔力的万能语汇,在有意无意中被夸大和误读。大数据在修辞学上的意义被浓墨重彩地强调,各种事物冠以大数据之名,无数故事围绕大数据讲述。这样的例子并不少见。一些以大数据为题的文章,除去首段和末端出现过大数据词眼外,所谈及的内容很难说与大数据有何关系,即便删去大数据相关字句也无关宏旨;国外科技博客Mashable一篇关于《金融时报》借助数据优化经营策略的文章,未脱传统网络分析的范畴,但被译成中文后标题中的Data就被大数据取而代之了;世界各国记者协力挖掘维尔京群岛资料的案例,其实是精确新闻在全球化和社交化背景下的自然延伸,但随即被当做大数据的典型案例;有些媒体机构推出金融终端产品,名字前也要加上大数据三个字。
  上述种种现象表明,目前媒体行业对大数据的理解存在着误读和迷思,很多时候偷换了概念,谈的是数据或大数据时代,而非大数据。数据更多从普遍意义上强调数据的魅力和价值,与大数据并不相悖;大数据时代则扩展了大数据的内涵,代表一种精神内核和核心理念,适用面自然也更广。如果用“虽不中亦不远矣”来评价,这些用法并不算错,毕竟在很多语境中“大数据不只是一个概念,实际上是对一种社会状态的描述”。⑤但也应该看到,这种误读遮蔽了大数据概念的真正内涵,可能会导致高估大数据对媒体的价值,甚至引发在实践中的偏差。
    
大数据对媒体的价值不宜高估
  大数据对媒体的价值不宜高估。诚然,麦肯锡全球研究所的报告称,大数据是继传统IT之后下一个提高生产率的技术前沿,在政府公共服务、医疗服务、零售业以及涉及个人位置服务等领域都将带来可观价值。如果医疗业全面使用大数据,保障医疗系统安全有效运行,美国每年能多创造3000亿美元的附加价值,同时减少8%的医疗费用支出;如果运用到公共领域,欧洲政府每年可减少1000亿欧元的开支。⑥
  大数据意味着巨大的发展机遇,然而却不是所有行业的机会,更不是所有机构的机会。典型的大数据源包括:网络日志、社会网络、互联网文本和文件、大规模的电子商务;传感器网络、通信记录、医疗记录;天文学、大气科学、生物化学等领域。显然,除了政府之外,大数据主要是巨头的游戏,为数不多的大公司真正拥有大数据,如在互联网领域与视频相关的Youtube和Netflix,与电商相关的亚马逊和阿里巴巴,与社交相关的Facebook、Twitter和新浪微博等。但目前,即便这些公司主要也只是在利用传统意义上的数据价值,大数据的利用尚处于初级阶段,价值并未得到释放。因此在提到大数据时,我们听到的更多的是EMC、惠普、IBM、微软这些做基础架构的IT公司的名字。
  在大数据浪潮中,属于媒体业的想象空间并不多,大数据对媒体的价值非常有限。大多数媒体机构在大数据领域并不具备颠覆创新和业务转型的条件,原因是多层次的。
  首先是最本质的问题,媒体业掌握的数据资源有限。麦肯锡全球研究所的报告指出,不同行业的大数据强度和内容各有不同。证券、投资服务以及银行等金融服务领域拥有最高的平均数字化数据存储量,通信和媒体公司、公共事业单位以及政府等企业和组织也有规模显著的数字化数据存储。但事实上,大多数媒体机构拥有的数据资源很难算是真正的大数据。与SNS、微博、视频网站、电子商务网站的数据相比,与物联网、移动设备、个人位置、传感器采集的数据相比,与电信和互联网运营商的数据相比,与各种传感器和监控设备采集的图像和视频数据相比,媒体业拥有的数据量相形见绌。一个简单的例子:中国最大的电视台中央电视台据称拥有近40万小时的节目资源,年播出总量为23.0248万小时;⑦而YouTube每分钟就有72小时的视频被上传,更不用提每月10亿独立用户的行为数据。⑧数据量级相差悬殊。
  接下来最关键的问题是,媒体业缺乏处理大数据的能力。大数据应对的是传统流程、传统工具、传统方法无法解决的大量、多样、快速的数据。而媒体业自身生产的数据有限,对于有限内容的数字化程度也不够。以纸媒为例,传统以版面为对象的生产方式,在开展新媒体业务时难以适应,需重新转化编码。而在内容数据库的建设方面,很多媒体甚至处于“零”的状态。可以说,大多数媒体机构连传统的流程、工具和方法都没有掌握。
  再从硬件和人才来看,大数据对媒体业是一块难以啃下的硬骨头。数据的存储、处理、可视化呈现所需要的IT架构、基础设施和专业人员,大多数媒体机构也无一具备。如果从头做起,搭建架构,部署设施,培养团队,无异于再造一个新机构。
  由此可见,对大多数媒体机构而言,想借助大数据浪潮完成转型,各方面条件都不具备的情况下,只会是无法完成的任务。国金证券关于大数据的报告中总结了六种商业模式:租售数据模式、租售信息模式、数字媒体模式、数据使能模式、数据空间运营模式、大数据技术提供商。⑨其中租售信息模式与媒体相关,主要包括以彭博为代表的金融信息服务商。恐怕也只有类似规模和形态的媒体机构才有可能借大数据创造巨大价值,其他媒体最好考虑更现实一些的利用途径。
     
大数据时代传统媒体的升级
  媒体业受大数据冲击和影响,但又缺乏根基,难以出现颠覆性的创新,无法孵化出新的业务形态。新的变革来临之际,媒体还停留在上一个街角,被技术公司远远落在后面。因此大数据浪潮之下,追逐概念并非理性的举动,媒体机构应当一方面承认差距,补上过去落下的功课,一方面避免盲目,实事求是地思考未来的进取之途。
  《大数据时代的历史机遇》一书的宣传语说:“缺少数据资源,无以谈产业。缺少数据思维,无以言未来。”数据是黄金、石油、货币,是重要的生产资料。传统媒体过去强调“内容为王”,而内容不过是数据之一种。面对未来,大数据的理念、思维和意识不可或缺,媒体机构应当充分认识到数据的价值,以开放和务实的心态拥抱数据。具体而言可从以下五个方面着手,这些举措并不全然属于大数据范畴,其中很多是传统的数据利用手段。
  第一,积累数据资产。原创内容和历史数据数字化可以构成媒体数据资产的核心部分,对报业而言是全文数据库、原版数据库、图片数据库等,对电视而言是健全的媒体资产管理系统;外部数据可以作为数据资产的扩充部分,如通过合作、购买、交换、抓取等方式获取来自其他媒体的内容和来自互联网平台用户创造的内容;完善数据资产的组织存储、查询调用和版权管理,能够为进一步的转化利用打好基础。
  第二,数据能力的获取。媒体应通过合作、购买、外包、孵化等方式,首先掌握传统的数据处理能力,进而具备大数据应用的能力;引进和培养数据人才,包括拥有统计学、商业智能、机器学习、自然语言处理等多方面技能的“数据科学家”,也要有知晓如何通过运用大数据来设计产品和运营企业的分析师和管理者。浙报集团旗下的新媒体战略投资机构传媒梦工场投资了知微、优微等项目,主要专注社交网络的数据深度挖掘,在这一领域布下了棋子。
  第三,用数据辅助经营。在经营方面,媒体可以借助数据增强决策的科学性。在完善传统用户数据库的同时,可借助网站和客户端收集的丰富和多元的用户信息,精准化理解用户需求,辅助改进产品设计,制定营销策略,提升广告效果。在这方面,《金融时报》通过用户分析调整“付费墙”策略,《纽约时报》综合比对订户数据和访问数据获得更精确全面的读者信息,这些做法都值得借鉴。
  第四,用数据辅助报道。数据新闻学正蔚然兴起,通过挖掘和展示数据背后的关联与模式,运用丰富的具有互动性的可视化手段,更好地报道新闻,帮助公众理解正在发生的新闻事件以及这些事件对人们生活的影响。《纽约时报》《华尔街日报》《卫报》等业界先驱在这一领域提供了丰富的案例,由Google和全球编辑网(Global Editor Network)合作推出的数据新闻奖(Data Journalism Awards)也已经举行了两届,分设数据驱动调查报道、数据可视化新闻报道和数据驱动的新闻应用等奖项,展现了数据新闻的最新图景。媒体也应当向搜索引擎、社交网站的新闻产品学习并展开合作,借助数据把握社会脉搏。MSN网站2011年上线服务的msnNow,分析 Twitter、Facebook、Bing和 BreakingNews.com上的内容,以分钟为单位识别热门话题,并由专门的编辑团体整理撰写成100字左右的话题故事,代表着数据辅助新闻的一个方向。
  第五,拓展业务,真正拥抱大数据。推出具有社交属性的新闻产品,真正投身大数据的海洋,欧美大型媒体机构在这方面的案例并不鲜见:纽约时报公司注资URL网址链接缩短服务Bit.ly,后者提供的短链接截至2013年3月已经达到1000亿次点击;CNN 2011年收购移动应用Zite,后者作为一款免费的个性化阅读应用,通过采集用户的阅读行为,抓取用户在Facebook或Twitter等社交网络上的数据,进而判断用户的兴趣聚合推送个性化的内容。■
  (作者单位:新华社新闻研究所)
  
注释:
  ①喻国明、宋美杰:《微电影、大数据、三网融合:中国传媒业跨入新传播时代的门槛——社会视角下的2012中国传媒业关键词》,《编辑之友》2013年第2期
  ②定义来自Gartner网站:http://www.gartner.com/it-glossary/big-data/
  ③⑥麦肯锡全球研究所:《大数据:下一个创新、竞争和生产力的前沿》,2011年
  ④⑨国金证券:《大数据”专题分析报告:大数据时代即将到来!》,2011年12月7日
  ⑤官建文:《大数据时代对于传媒业意味着什么》,《新闻战线》2013年第2期
  ⑦数据来自中央电视台网站“中央电视台概况”页面,http://cctvenchiridion.cctv.com/20090617/113152.shtml,2009年数据
  ⑧数据来自Youtube网站发布数据,
http://www.youtube.com/yt/press/statistics.html,2012年数据

主管单位: 文汇新民联合报业集团
主办单位: 文汇新民联合报业集团      上海社会科学院新闻研究所
制作维护 技术支持