财新传媒

数据分析战场上的竞争

2017年09月19日 14:13 来源于 财新网
可以听文章啦!
今天数据分析面临的最大挑战就是如何应用数据科学的理论、方法论、和大数据技术高速、高质地把数据正确地整合以支持数据分析和智能决策
张小彦
财新网“决策智能”专栏作家。20世纪80年代由费孝通先生推荐赴美留学。1989年获匹兹堡大学社会学博士。二十多年来遵循费老“社会学为社会服务”的教诲,将社会科学与现代信息技术相结合开发社会管理和决策支持软件系统。曾为美国联邦政府和二十几个州政府设计、建立了毒品滥用预防活动管理信息系统。2007至2010年,被美国卫生部聘为毒品滥用预防和治疗研究中心国家级顾问;同年,获得国家预防网络授予的服务金奖;2008年获得了美国安永企业家东部地区年度奖;2010年被匹兹堡地区商业周刊评为行业标兵。现任美国匹茨堡大学客座教授并兼任一家软件公司董事长和数据科学家。

  【财新网】(专栏作家 张小彦)哈佛大学商学院2007年出版的《分析上的竞争:取胜的新科学》(Competing on Analytics: The New Science of Winning)在商业智能(Business Intelligence)领域引发了新一轮的数据分析热潮。该书的作者通过对32家不同行业的公司和机构调查研究后总结出数据分析型竞争者的五个成长阶段。(见下表)

  

1

  十年过后,数据分析是最高层次的竞争已成为共识。很多公司已经成为数据分析竞争型组织。落后的企业也都在奋力追赶。

  2016年,几个大数据领域思想领先者合著出版了《使数据正确:应对海量多样大数据的挑战》(Gutting Data Right:Tackling the Challenges of Big Data Volume and Variety)。该书对大数据分析的挑战进行了深刻讨论。

  在过去的二十多年里,几万亿美元的投资被用于建立名目繁多的各类数据采集、管理、和上报系统。单个来看,每个系统都有其存在的原因和道理。但从总体角度看,数据却是一片混乱。数据孤岛、混乱的定义、不统一的格式、各异的标准等给数据分析造成了极大障碍。通过网络、社交、视频、传感器等手段源源不断地积累的无结构、半结构数据更加大了数据清理、过滤、重组、标准化工作的难度。因此,今天数据分析面临的最大挑战就是如何应用数据科学的理论、方法论、和大数据技术高速、高质地把数据正确地整合以支持数据分析和智能决策。

  数据整合的技术挑战有六个方面:

  第一、 大规模数据收集和管理(Data Curation at Scale)

  数据收集和管理经历了三代技术更新。第一代的数据仓库(Data Warehouse)出现于1990年代。主要功能是数据提取、转换、上传(Extract, Transform, and Load- ETL)。第二代技术成熟于2000年代。它主要是在ETL的基础上增加了数据清理,不同类型数据库的兼容,相关数据自动转换(如欧元转化为美元)等功能。这两代技术都不适于大规模数据收集(成百上千个数据源)。第三代技术随大数据时代的到来而兴起于2010年代。它的核心技术是应用统计模型和机器学习使数据的收集和管理实现自动化为主,人员干预为辅使高速优质的大规模数据收集成为可能。

  第二、 数据管理的新思路

  过去几十年里,自上而下的数据管理理念一直占有统治地位。这种思维方式的基本假设是只有通过统一规划才能达到数据的统一定义,标准,管理,储存,使用。可实践证明,由于每个公司和组织都在不断变化,中央设计的数据管理系统似乎永远无法完成。即使完成了也已经过时。系统的设计者与使用者之间总是有一道隔阂,计划赶不上变化。企业为此浪费了大量的钱财和时间。

  近十年来,一种自下而上的数据管理理念逐渐引起人们的关注。它的思维方式有五个特点:(1)联邦式管理,中央和地方分权。公司总部和分公司协商数据定义和管理的职责和权力,(2)允许各级管理人员使用各种现成的工具而不是等待中央系统提供,(3)不断登记注册各种相关数据而不等待统一数据模型,(4)保持数据管理系统简单直观,(5)建立尊重数据的环境以改进数据的管理和使用。

  第三、 数据清理的挑战

  如何处理混杂不干净的海量数据是大数据分析难以避免的挑战。至今为止还没有出现比较理想的数据清理的工作平台。产生这一情况的主要原因是数据质量问题的诊断、梳理、验证、以至修正都离不开人的参与。只有通过人工产生了数据清理的程序、逻辑和方法后,才能使用软件工具快速清理数据。每个新数据源都有其特殊的数据质量问题,这使得开发通用型数据清理平台极为困难。

  第四、 数据科学:数据主导的认知(Data Intensive Discovery)

  近年来以数据为主导的分析(Data Intensive Analysis – DIA)成为数据科学的新热点。DIA也被称为大数据分析,是数据科学的新分支。它使人类突破了自身思维能力的极限(人脑只能同时分析10个以下变量的模型)。应用大数据技术可以高速地找出千百个变量的相关性。传统的科学实证思维模式是以理论为出发点提出假设,然后选择分析方法,再采集数据来验证假设。大数据分析拓展了人类的认知能力。这使以数据为主导的科学发现成为可能。这种新的认知框架从数据出发,发现相关性后寻找理论解释,然后应用科学的方法验证。有人称其为第四代认知框架(the Fourth Paradigm)。

  第五、 从软件开发运作(DevOrp)到数据应用运作(DataOrp)

  软件开发经过多年的经验积累已形成了一套有效的设计、开发、测试、质量管理模式和一系列相关的工具(DevOrp)。今天,数据工程师、数据科学家、数据库管理员等也需要类似的数据应用运作程序和相关工具(DataOrp)。这是一套新的基础设施,有人称之为数据技术(DT)。

  第六、 数据统一是使现有数据系统产生价值的最佳战略

  如何将企业里分散的数据整合以实现全公司层面的决策支持是一个令人非常头痛的事。为迎接这一挑战,一个新的理念和技术“数据统一化”(Data Unification)被越来越多的人接受。这个技术包括三个步骤:(1)数据登记注册(Catalog),即保持原始数据不变又为中心数据库提供完整数据记录,(2)数据库连接(Connect),使各个分散数据库通过互联网在需要时即时连接,(3)数据公布(Publish),按照分析需求将不同数据库的数据统一定义、连接后提供给数据分析人员。这个技术的核心是应用统计概率模型自动地在数据库连接过程中使数据统一化。数据统一化已成为大数据处理过程中的一个重要组成部分。

  数据分析上的竞争将会日趋激烈。只有面对以上挑战而不断创新的企业才能率先实现以数据分析为主导的智能决策。

  作者为社会学博士,现任美国匹茨堡大学客座教授并兼任一家软件公司董事长和数据科学家  

责任编辑:张帆 | 版面编辑:王永
财新传媒版权所有。如需刊登转载请点击右侧按钮,提交相关信息。经确认即可刊登转载。
全选

新闻订阅:订阅后,一旦财新网更新相关内容,我们会第一时间通过发邮件通知您。

  • 收藏
  • 打印
  • 放大
  • 缩小
  • 苹果客户端
  • 安卓客户端
财新微信