活动回顾

【活动回顾】大数据落地BigI3方法论

阅读量:1,3962021-04-16

陈书悦 DAMA数据管理  2015-11-21

一、数据海洋

今世界是一个数据的海洋。在人类历史上,从来没有出现过如此迅猛的信息爆炸,人类拥有的信息量以指数函数的速度急剧增加,信息倍增的时间周期越来越短,信息洪流以前所未有的力量冲击着整个世界、改变着人类社会的结构和形态。

所以有人说:“我们在数据的海洋中遨游,而水中满是鲨鱼,并且海平面还在快速上升。(We swim in a sea of data… with the sharks… and the sea level is rising rapidly.)”

这话绝不是夸张。每一天、每一分、每一秒,各类系统、各种应用产生源源不断的数据。每一秒,全球发送电子邮件300万封;每一分,YouTube上传20小时视频信息;每一天,微博新贴1亿条、淘宝交易2000万笔,而Google处理数据近30PB……


即使是最普通的家庭,每天消费的数据量也多达400MB。大数据不仅是滚滚而来的时代热潮,也早已无处不在、如影随行;大数据并不只是喧嚣于数据中心、云及新闻中,也早已侵入我们的家庭、我们的日常生活之中。

二、大数据时代

大数据(Big Data)迄今并无严密的公认定义,通常用4V特征来描述它。既云“大数据”,首当其中就是Volume(海量),系指数据量太大,难以用传统数据处理手段和工具进行处理。从2005年起,全球每天产生的数据量多达2.5 QB、每年数据总量增加300倍,预计至2020年,预计全球数据总量将达到90 ZB。


一方面是数据量大,另一方面却要求Velocity(高速)。极快的增长速度、极高的处理速度,这是大数据的第二个特征。纽约股票交易所每交易时段处理交易信息量高达1 TB,而轿车上用于监控燃油和胎压等信息的传感器接近100个,它们需要得到实时快速处理。2016年全球网络连接数量预计将达到189亿,平均每人2.5个连接。

不幸的是,大数据并不一定像某些人鼓吹的那样神奇,它是Veracity(欠真)的。统计表明,数据质量不佳给美国经济每年造成损失高达3.1万亿美元,而三分之一的业务领导不信任他们用于决策的数据信息,27%的被访者不确定其数据有多少是不准确的。

好消息是,有一部分人认为大数据的第四个特征是Value(价值)。因为统计也表明,大数据已经创造了很高的价值,促进了生产率提升和销售增长。只是人们也发现,大数据的价值密度是很低的,例如连续视频信息中价值数据可能仅1s。

三、大数据落地

大数据已经超越技术趋势,成为业务模式的颠覆者,也成为各行各业的追赶“风口”的必然选择。然而,如何解读大数据的海量、高速、多样及信息与价值的不确定性特征,准确理解什么是真正意义上的大数据,并根据自身企业的实际情况采取具体行动,却成为很多企业落地大数据的拦路虎。

围绕从萌芽、产生、发展到衰退的大数据全生命周期,我们秉承多年研发底蕴与丰富实践经验,提出了务实有效的大数据落地方法论。

大数据落地BigI3方法论分为六个阶段,并不断迭代循环。总体框架如下图。

B: 业务风口

我们坚决反对在业务需求尚不清晰的情况下大规模上马大数据平台的“工具论”做法。在大数据落地之初,首先迫切需要寻找业务突破口之所在。

企业需要大数据创新思维的指引。什么是大数据、什么是大数据创新,是基础;在特定商业模式下,大数据创新有哪些类型,大数据如何驱动业务创新,例如营销创新、组织创新、产品创新,如何实践和架构大数据创新,是进阶;大数据如何重构甚至颠覆商业模式,如何通过大数据人工智能重塑业务模型,是梦想。

在方法论的引导下,通过场景研讨、头脑风暴、游戏风暴等形式,寻找大数据驱动业务创新的切入点与持续创新路径,是业务风口阶段的主要任务。

i: 创新实验

大致瞄准大数据创新的业务风口后,需要从业务角度、数据角度进行探索分析。探索分析不预设答案,不确定是否必然有结论,采用微循环方式反复进行。

探索分析之后,为了验证分析成果,必须进行小范围创新实验。该实验采用业务与数据并举、数据驱动业务的方式。例如,假设经过竞争力的探索分析之后,认为调整价格策略有助于提升销售收入、提高产品竞争力,则创新实验可以进行数据测算,并选择试点范围进行实验,经过多次循环迭代尝试之后,可以宣告创新实验成功或失败。

创新实验也可以单独进行,按照大数据驱动业务优化的逻辑:选取问题业务环节进行诊断,按照探索分析确定的路径进行优化实验,然后评估优化成果,进入下一轮迭代循环。

采用微循环方式进行业务及数据探索,寻找大数据创新机会,并采用数据驱动业务的思路进行小范围创新实验,是创新实验阶段的主要任务。

例如,我们可以采用创新实验方法,尝试进行产品全生命周期成本分析。

g: 金钩战略

在大数据落地实践中,“金钩方法”是我们倡导的策略。该策略通过全局视角、重点突破的微创新或局部创新,实现大数据驱动创新的价值回报。

规划大数据落地蓝图时,不建议采用长时间调研与分析之后提交成果的传统方式,而应通过快速迭代、快速见效的“金钩方法”,进行轻量级渐进式规划。规划应链接到企业的关键业务方向,为企业提供大数据价值创造的抓手。

在规划“金钩战略”之前,需评估企业的大数据成熟度,在成熟度模型的业务监测、业务洞察、业务优化、数据变现、业务重塑五阶段中,现状与目标的成熟度状态,并规划大数据实施路径,使之聚焦于业务风口和创新实验所指引的关键业务方向,并确保IT有能力实施大数据业务机会。

为了保障大数据举措持续运行,“金钩战略”规划需要定义管理角色、职责与业务流程,从而将大数据分析与业务运行集成在一起。

采用全局视角、重点突破的“金钩方法”制订大数据战略,规划小起点、低投入启动大数据建设的迭代蓝图,是金钩战略阶段的主要任务。

I: 数据整合

企业就像一头大象,企业规模越大,“盲人摸象”式决策管理越严重。而基于内部数据的传统分析(如商业智能),由于视角的天然局限性,不仅不能提升企业智慧能力,反而会加剧“盲人摸象”。

因此,企业在落地大数据时,不应该按照传统思路,仅仅基于企业内部数据,而应该更多地与外部数据相结合。然而,受限于企业IT人员的知识与能力背景,也受限于企业原有IT系统的技术与数据架构,企业对于如何引入外部数据进行大数据分析,理念和思路或可接受,落地操作却举步维艰。

有鉴于此,我们可利用自主研发的H2智慧平台,按照企业的特定需求,将企业所需大数据进行双向整合:将企业所需的外部数据通过接口输出给企业,而接口可以传送打包数据、或打包应用;将内部数据传输给H2平台,由平台进行数据整合分析后,将分析结果(可以是数据、应用或分析报告)输送给企业。

除了企业内部数据,更多地整合外部数据,如互联网数据、行业数据、第三方数据、竞争对手数据甚至线下手工数据等,是数据整合阶段的主要任务。

I: 平台实施

每当业务需求出现时,企业IT部门习惯采用自行部署系统平台的传统思路。这使得IT管控越来越庞杂、IT负荷日益加剧,业务满意度却日益下降。我们不欣赏这样的“重量级”方式,尤其反对业务需求尚不清晰的情况下大规模上马大数据平台的“工具论”做法。

但当企业大数据落地初见成效,确需建设大数据平台,或企业已经清晰梳理业务需求,企业领导决定搭建大数据平台时,则应开展大数据平台实施。但大数据平台究竟应该自行私有建设,还是采纳第三方公有云方式建设,则是值得斟酌的基础问题。总体来说,我们倡导实事求是的原则,不建议追求“大而全”的平台建设思路,更不支持通过一家供应商采购一个“大平台”的不负责任作法。

大数据平台架构设计,尤其应该着实事求是。基本原理是,对于结构化数据采用关系型数据库(并不一定必须并行架构),对于非结构化数据采用没有模式的文件系统系统方式(Hadoop/NoSQL),而对于半结构化数据则宜采用混合中间模式的架构(多用于数据探索和不深度分析)。理想状态下,大数据平台应采用UDA(统一数据架构)的理念,使平台能够同时支持结构化与非结构化并行处理,然而在具体的平台建设中,并不需要追求概念的完美,传统的数据仓库或关系型数据库未必就不是大数据应用的理想平台——毕竟任何数据都终将回归结构化。

总之,当创新试验初见成效,或大数据业务需求已经明晰,应考虑实施大数据平台。可以企业自行搭建平台,更应考虑采用第三方公有云建设。

I: 精益迭代

大数据平台从业务功能、到系统和数据架构,既要求高度灵活性和快速响应,相比传统IT系统又较为复杂,企业在运营大数据平台时,除加强和巩固内部资源与能力外,也应当以开放心态与各方外部资源通力合作,采用联合运营方式共同运营和维护大数据平台。

最重要的是,大数据平台建设与运营不可能“万年牢”。必须采用轻量级渐进式思路,快速迭代、快速见效,当小起点、低投入的大数据应用初显价值时进行下一轮循环,让大数据价值“即插即用”。