袁岳登市场监管研究专家讲坛:开讲大数据智能的管理决策

发布时间 :2019年06月17日

市场监管研究专家讲坛是国家市场监管总局发展研究中心创办的学术交流活动平台,旨在邀请各领域专家学者介绍其在前沿领域的最新研究成果,就市场监管领域的热点问题进行研究探讨。继“中美贸易摩擦”及“一带一路建设”主题后,市场监管研究专家讲坛于2019年6月12日开展了第三场主题演讲——“建设基于大数据智能的管理决策支持能力”,演讲嘉宾为零点有数董事长、飞马旅联合创始人袁岳博士。

 

 

袁岳博士的发言从三个角度出发:一是阐述了大数据的特点;二是从政府应用角度阐述如何智能化运用大数据;三是从大数据的发展方向出发,提出大数据人才需求和岗位需求。

以下文字整理自袁岳博士的现场演讲:

大数据的特点

大数据有以下三个特点:多源的、客观的及动态的。

一、大数据是多源的

以前的大数据,包括机关里的大部分数据都是主观数据。以统计局为代表,大部分数据实际是填报出来的,其特点是填报者决定了提供什么样的数据。调查问卷也一样,调查数据是由调查对象决定的。

零点有数做过很多的实验,人们在不同的情况下,同一个问题给出的回答就不一样。举例来说,市场监管部门的商事注册满意度,在不同的场所提问,得到的答案就会有所差别,比如在注册现场询问、在离开现场询问或者在自己办公地点询问这三种方式,结果就存在15%-35%的差异。

同样,零点有数之前做过北京监狱局中犯人对监狱工作的评价,关押不同阶段的犯人给出的评价就有所差异,如刚进入的犯人、在押一段时间的犯人和即将刑满释放的犯人给出的答案就不同。这就说明人们提供答案的时候,会考虑回答这个问题对自己的有利性、不利性甚至有害性。那么,调查的数据是真的吗?调查者无法告诉你调查的数据是否为真,只能告诉你被调查者真的是这么回答的。

同样,注册的数据是否为真呢?比如统计局有人口普查数据,公安部门有户口数据,卫生部门有出生证数据,那么这三类数据之间相差了多少呢?最大的差别是14亿与12亿多,差了1亿多。所以,你能说这中间哪个数据是真的吗?其实所有的数据都是有瑕疵的。所以,大数据之所以是大数据,是因为大数据不相信任何一个单一的数据为真。

以法律为例,法律中孤证难以立案。比如,一个人向另一个人借钱,那么到底是否借了钱呢?其中一人说对方向自己借钱了,那么这就是第一个证据——当事人陈述;如果能提供借据的话,那么就是第二个证据——物证;如果说还有一个见证者,那么则是第三个证据——证人证言。单一证据有瑕疵,而不同的证据之间可以相互印证。以上三个证据一起,就有价值,这个就叫多源。

单一的数据源是有瑕疵的,多源强于单源。因此,单一的、有限的、不同的、多个数据源,构成了几近完美的数据版图。

二、大数据是越来越客观的

目前的数据主要由三类构成:在线痕迹数据、客观监测数据以及报告中的数据。

首先,在线痕迹数据的产生是中国过去20年中最大的数据发展。人们的行为越来越多的集中在互联网,无论是浏览信息、社交、电子商务、游戏、或者日常手机支付,这些数据都是痕迹数据。

其次为客观监测数据。这类数据主要是基于传感器和物联网所产生的数据,如生产过程、物流过程、行动过程和城市运行过程中探头发现的数据等。举个例子,北京市到底有多少辆僵尸车?通常车辆注册处只负责注册以及报废,但是有多少辆实际上并未在运行的车辆呢?通过三个数据源就可以知晓。数据一,通过热线;数据二,通过探头,探头按照时间标记长时间不动的车辆数;数据三,网格系统。通过将不同数据源整合在一起,可以得到结果,其中,探头数据就是客观数据。

另外,关于禁毒先进城市的评选就可以通过化粪池和下水道中的传感器来监测毒品成分。从而可以获知该区域吸毒人口、吸毒总量、分布区域等。这就是客观结果,而客观结果是可以比较的。这就是将来的趋势,越来越趋于客观化。

三、大数据是动态的

普通的公司,有卖内裤的,他掌握的是内裤用户的数据;有卖车的,他掌握的是车辆买家的数据;有卖酒的,他掌握的是买酒喝酒人的数据。同样,每一个人都不是单一的,他喝酒,也穿衣服,有自己倾向的酒店、品牌。企业也是如此,向不同部门填报的数据的整合构成了企业大数据。

大数据是不同来源的数据的整合,我们每个人每分钟都在变化,企业也是如此,无数个或企业构成的数据库时时刻刻都在变化着,因此真正的大数据是个动态数据库。所以将来市场监管总局也应该有一种能够实时反映出当下情形的指数。

智能化运用数据

一、真正的大数据智能就是提供精确的解决方案

大数据智能并非直接帮助决策者完成决策,而是提供不同于小数据、无数据、无经验或者非智能化工作的帮助决策者提供数据支持的能力。既需要拥有大数据,又要智能化地加以应用。不同源的数据汇融之后,能产生解决问题的能力类似原子反应堆的能力。

下图的四个英文缩写“OEPA”就是数据运行的状态。“O”代表现状,原始的数据;“E”代表现在能够衡量的数据;“P”代表表现的更好的数据应该是怎样的,即潜能;“A”表示最佳的实施方案,即数据的目标。只有提供精确的解决方案才是真正的大数据智能。

 

 

二、算法是比较有共识的对一个问题的处理模式

解决每一个问题的时候,我们要假定这个问题有最佳的解决方式,而如何保证解决方式具有一定的稳定性?这个稳定性,就是提供解决问题的方式,也叫做算法。算法的特点可以总结为将人们的经验教训模式化,将模式模型化,将模型算法化,将算法软件化。

以地铁抓扒手为例,将有经验抓扒手的人员召集在一起将自己的经验进行分享,然后研究地铁扒手的行为特征,通过算法编写程序,将其转化成软件,安装在探头中。通过探头查找具有扒手特征的人并伺机现场抓捕。其特点是在案件发生前就已经知道谁是扒手,从而变成了智能的扒手管理方案。

关于110的语料分析也是类似,根据以往的所有案件,进行标签库和语料库的整合构建数据图谱,从而在电话打入的时候就能预判事件的发生。

在市场监管领域也是如此,涉及很多条工作线,每条线下有很多的任务模块,每个任务模块要解决的时候也可以分成若干工作类型,每种工作类型解决事情都需要相应的算法。因此,可以通过将历任领导、工作人员的经验以数据资产的方法留存下来,那么这就是算法最重要的价值。

三、政府部门运用大数据时的两种路线

路线一:数据顶层设计,从基础数据清理到融合。作为顶层设计,可以将市场监管各部门的数据进行清洗并汇总,再通过授予不同部门不同的权限。此种思路是从基础开始做工作的方法。

路线二:围绕要解决的议题推进数据融合。由于路线一的实现是不容易的,因此有了路线二。通过专门的议题,然后调用需要部门的数据从而推进数据融合。调用和授权协议是在商业领域包括在解决专门的公共议题的时候最有效的一种方法。

四、零点有数的大数据案例及相关产品

零点有数以评估为起点,开发相应算法,最后仍以评估为闭环。一般来说评估一个工作的时候会考虑以下四个方面。“效能”代表水平;“效率”代表投入;“效果”代表产出比,意味着落地的可能性;“效益”代表落地以后产生的其他的影响力。

 

 

以下仅展示零点有数的产品类型与部分产品:

 

 

 

 

 

 

 

 

 

 

大数据人才

今天中国的领导层是全世界最具备数字化意识形态的,对大数据应用的认知、对未来价值的认知都是不错的。但是如果需要把大数据应用进行落地,就意味着需要有核心进行数据管理工作的骨干力量,同时还需要有运用逻辑的数据执行人才。

一、大数据机构领导的人才逻辑

让我们从以下三个层次来看:第一个是以数字化领导力为核心的意识形态层面,意味着我们从基于主观数据和经验为主的方式,开始有了较为客观的数据和基于算法的新选择。二者不是相互替代的关系,而是可以同时考虑。第二个是以首席数据官为核心的管理场景层面,即负责将相关数据源进行数据处理、数据整合以及数据管理工作的人才。第三个是以数据人才为核心的运用逻辑层面。

 

 

我国可应用型的数据人才比较少,以下是八种典型的大数据人才:数据科学家、数据工程师、基础设施工程师、软件研发工程师、数据架构师、洞察分析师、数据白领和数据蓝领。

 

 

其中,数据架构师是目前最紧缺的人才,数据架构既涉及到数据的算法又涉及到数据的应用,既要对业务有相当的认知,同时要对技术有很深的了解;另一种是算法工程师,一方面涉及到数据处理系统的应用,另外一方面是要把数据算法进行编程;还有是洞察分析师,就是分析各种可能性,在没有算法的时候,其作用更加突出;有了算法之后需要不断升级算法,所以需要数据科学家,将不同岗位整合在一起协同工作。

二、公共服务人才

我们不缺想当公务员的人员,但我们缺真正的公共服务人才。一方面,未来数据智能化工具的发展,将会有大量的事务需要处理,同时还需要保持较高的效率,以及得到服务对象的认可。

另一方面,相信年轻一代的人才在这样新型的服务模式中间,也更能激发对工作的热情。那这样的话,将来在这个领域中,新一代数据智能的公共服务人才和公共管理人员能够发挥其价值。

总结

第一,真正的大数据是多源的。大数据的本质是最自然状态的那个真实的个人、法人和社会体。任何一个人或者一个企业都是由多种数据源构成的,因此想要真正的了解消费者或者企业,需要通过多源的数据整合,多维度进行分析。

第二,数据会越来越客观。由于数据填报者对同一问题在不同时期、面对不同对象都会有不同的回答。因此,通过更加客观的数据,如痕迹数据、客观监测数据是未来的数据研究趋势。

 

 

第三,数据智能化的目的是帮助决策者更好的进行精准决策。如果不能追求精准的为数据决策者提供决策,那么就是耍流氓。

第四,数据人才以及公共服务人才特别缺少。无论是在企业还是政府部门,数据智能职业技术人才培养非常重要。