零点有数谈中国智慧税务:从税务大数据走向税务大算法

中国智慧税务
行业:
税务管理
描述:
税务算法集合是数字化税务治理从第一层次跃升到第二层次以上的关键和达到第三层次的构成要件。

 

  本文经中国日报、中国网、中华网等主流媒体刊载。

 

 数据智能的要素包括了算量(数据)、算力和算法,由于金税系统的建设,在数据获取与汇集上,我国税务系统的算量建设水平相当高,由于国家整体重视包括超算、云存储与云计算、数据存储中心、区块链等在内的建设,因此可使用的算力水平也不低。在算法方面,正如国家税务总局王军局长在出席中办国办印发的《关于进一步深化税收征管工作改革的意见》专家座谈会上所说的那样,在税务系统所进行的个人所得税汇算清缴计算机制、大数据支持的税务稽查等环节,已经在关注与应用算法技术了。但中国税务算法是税务数据智能三要素中提升价值与空间最大的。

 1、算法与税务算法

 算法(Algorithm)是一系列指令的集合,这些集合型的运算规则,使得在保证有特定化数据输入的时候,就能形成特定化的成果输出。税务算法则是一系列对应特定税务工作场景的专业处置规则所构成的指令集合,借助于这些集合型的运算规则,使得只要有一定数量和条件的税务数据输入,就能形成一定的分析成果、判别结果、行动对策与预测预警信息,支持高质量决策与决策执行追踪与税务数据分析—决策指挥—行动追踪—成效评价一体化”机制。税务算法在不断地数据训练与实景应用中优化升级,特定的算法针对性地解决某个或者某类特定税务场景问题,而集合型的税务算法可以解决多类型税务场景问题,对应全场景与全类型税务场景的全量税务算法集合构成“税务脑核”,有无“税务脑核”决定着是否真正拥有税务系统数字化管理中枢,是当下税务系统大脑内容建设的核心。

 从税务工作数字化转型与数字化治理三层次(Digitization 数字型信息体系的形成、Digitalization 运用数据进行工作模式的数字化优化、Digitalization Transformation/Digitalization Governance 实现具有常态化的数据自动分析—智能决策—创新行动管理一体化机制)逻辑架构出发,则税务算法集合是数字化税务治理从第一层次跃升到第二层次以上的关键和达到第三层次的构成要件。

 2、税务算法的类型及其典型实例

 税务算法分类最典型的可以按照问题场景类型进行,比如参照12366 咨询与投诉诉求分类,可以(在分到第五级、第六级情况)将税务问题场景分成大约300类左右的细分小类(考虑社保缴费则可以达到400左右类),由于算法需要针对最具体的问题场景及其原始数据,因此深度细分类目更有价值,这就意味着针对税务热线诉求可以形成不少于400个以上的税务算法与算法集合。同样,针对线上线下税务办事大厅的工作主项则接近250项左右、税务违规违法查处事项150项左右。在上述近800项税务工作场景中,每个关键信息与数据来源都可能有数百上千类别的问题场景,每个场景都需要一个或数个算法对应。不同信息来源的场景问题本来就可能有重叠和共性,因此多来源的场景数据可帮助我们鉴别共性、有一定代表性与个性的特定问题,通常前两类问题更有用算法加以系统高效管理的价值。

 税务算法的第二种分类是按照问题场景的处置功能来分类,比如我们针对问题需要进行判别判定(比如判定是否虚开发票、纳税人风险与税收信用评估)、分类排序(如确认虚开发票的类型及其变化周期)、场景匹配(比如纳税企业与可享受优惠政策的匹配)、预测预警(行业纳税能力通胀影响预测、特定问题的可视化地图分布与关联关系空间关系分析)、搜索推荐(特定减税降费政策推送)、指令模拟(稽查案件智能提示)、指令分发(任务工单智能派发)、任务追踪(处置工作全程追踪)、成效评估(指数化自动分析),这些都可以形成相应的判别算法、分类算法、分布算法、排序算法、匹配算法、预测算法、搜索算法、推荐算法、指令模拟算法、分发算法、追踪算法和评估算法。理论上,税务算法可以覆盖税务管理行为全程。

 税务算法的第三种分类是按照算法构建留存的技术形态而分为朴素模型化算法与软件化算法两类。前者通常以文字和图形描述的模型逻辑架构+一定的计算公式的形式存在,通常大部分的算法也是有这样的模型基础的;后者则以程序语言的方式将算法的模型与非模型逻辑,开发为可以在系统上进行容器化或者插件化部署的微软件、微软件组合或软件模块。目前学术界所称的算法前一种会多一些,而在专业数据智能应用界,软件化算法因其具备置入硬件、软件系统、网络而实现在线运行和快速自动计算的优势而成为主流形态。未来中国税务算法可以在金税系统之上建设插件化部署的工作台形态。

 典型的软件化税务算法部署实例包括,使用在税务热线管理后台的热线诉求管理智能分析工作台上的分析类算法、业务导航类算法指令、专项问题(热点问题、重点问题、难点问题与新点问题)解析型算法;使用在税务大厅服务管理系统上的探头影像中的问题事项甄别算法、问题事项智能派发与追踪算法、多类问题网格分布可视化关联分析算法、多类数据问题时空序列分析算法等;个人与企业所得税汇算清缴算法;基于各类税务违规违法的立案、查处、破案文本信息进行的知识图谱建设与深度算法开发而形成的行为类型(比如虚开发票)判别算法与分类算法;基于发票和社保费用缴纳数据进行的区域经济发展、行业发展、就业变动分析、企业运行连续性算法;基于税务知识库而进行的特定纳税主体自动化政策过滤分析算法与政策推荐算法;针对税务工作最佳工作标杆(工作部门、税务所)的数字化解析与算法化指令设计,形成培植“超能税务官”“超能服务大厅”“超能税务所”的算法化管理模式等等。

 3、税务算法的来源及其构建

 税务算法的形成,在起始处往往是因为有某些需要处置的税务工作事项或者场景性问题,这些问题有一定的共性,也形成了一定的痕迹资料、相关信息与数据,因此结合过去对于这类问题的处理经验与最佳做法,就可以提炼与开发初步的核心要素及其关联规则,形成一定的模型逻辑,来进行相应的模拟分析与运算,在分析运算基础上可以通过数据训练(场景数据化的成效检验、参数和变量调整、再检验、再调整)达到提升算法精度的目的,算法模块一旦成型则可以在规定的数据输入下形成相应的算法计算结果。如果模型与模式能够用程序语言编辑为软件,则算法化的软件虽增加了前面的开发成本,但在后续的运算效率因算法模块部署在政务系统上自动智能运行而会更高。

这里,我们大致会看到税务算法构建的操作步骤

(1)可使用或者可访问的场景性问题信息与数据;

(2)业务团队与算法架构师针对问题处置经验的梳理与相关支持信息与数据;

(3)业务团队与算法架构师在前两者基础进行的提炼与算法逻辑构建;

(4)程序技术团队利用基础算法技术与其他系统开发技术,将算法业务逻辑进行程序化语言的转化,形成初步软件化的算法模块;

(5)算法训练(在应用场景中的多轮测试与场景性数据化检验);

(6)达到一定精度后的成型算法模块的部署;

(7)算法模块在特定数据输入下形成特定结果输出的常态化能力;

(8)算法升级与调整部署。

 面对海量数据尤其是文本型的税务数据(税务热线工单、涉税案件查处资料、大厅办事数据、金税系统对应业务数据、非税关联社会数据),专业团队往往还需要通过知识图谱技术开发大量的税务知识图谱,以支持高效的机器化的深度学习,并在知识图谱基础上开发高精度的税务算法。同时作为对应具体税务服务与征管场景的应用算法,税务算法开发需要在充分利用基础算法工具与通用算法工具的条件下进行。总之,税务算法是对于特定税务场景问题的解决方案,因此开放税务工作场景并不是目的,推动税务数据共享也不是目标,场景提供与数据提供是提出问题与提供各类专业团队进入问题解决环节的机会,获得税务算法才是开放税务场景与附条件提供税务数据的目的。有价值的税务算法开发既不能只依赖系统内团队,因为其算法架构往往缺少创新性与超越性;也不能变成外部技术团队的专利,那样的算法往往不能有效解决特定场景问题。税务算法的开发需要特定税务领域的业务团队、掌握算法系统开发技术的技术团队、具备逻辑架构与跨界协调能力的税务算法架构者高效协同。

 税务算法开发是问题驱动型的对策开发,也是需求驱动型的解决方案开发。而且同一个税务服务场景,需要的也不是只有一个、一种或者一类角度开发出来的算法,不同业务背景、不同技术背景、不同内外协同工作模式的团队可能会开发出不同的税务算法,其精度效能会有一定的差异,因此在选择合作的税务算法团队的时候需要充分考虑这些因素,当然在可能的条件下,允许针对同一税务场景问题尝试开发运行不同算法,以起到纠偏趋准的作用。在技术上,因为智能化税务算法微软件具有模块化、插件化部署的特点,不同特点的算法也同样可在相关系统上兼容部署,并不需要不断重复投入建设系统和平台,但需要原有与现有的系统开发商确保开放算法模块接口,而不至形成技术阻隔与低效部署。

 4、税务算法的集合及其应用

 在税务算法软件化的前提下,同一团队开发的税务算法模块可根据需要形成不同的集合,用于解决不同的问题。不同团队开发的税务算法模块同样也可以参与形成组合,即使是不同开发团队开发的税务算法本身可以通过一定的接口连接起来。一旦有税务问题场景需要,就可以招标购买更多的算法开发团队参与税务算法的构建。因此,不同时期、不同类型、不同功能的算法模块达到一定规模与数量,就可以构建分类、分级的税务算法池”或者税务算法货架”。类型丰富充分、结构合理清晰、可以自动联结运行的算法集合构成税务脑核”,并将“税务脑核”在税务算法模块的不断横向类型丰富与纵向升级的过程中,实现整体的持续升级,模拟出人类脑核运行的基本机理(人的脑核=脑区—皮质—神经元—细胞体—突触;政务脑核=智能区块—算法集成模块—特定税务算法—算法接口)。

 在智慧税务建设中,税务算量是税务算法构建的基础也是税务算法训练、算法运转的原料供应要素,数据建设追求汇融但不必也不容易实现跨系统汇融,汇融中也特别容易出现“能汇融的无大用,有大用的不汇融”的现象,因此数据建设的关键应放在数据清理到可访问、规定授权下有条件可访问可贯穿使用、常态化分布式存储;税务算力保障了税务算法运算的效率,尤其是海量数据输入下的运算,但应该尽量减少算力重复建设、算力的无效过度应用(海量存储、过多大屏呈现、无意义的分布式存储);税务算法集合涉及税务智能脑核的实现,是得以面对大量税务工作中的场景性问题、寻求问题解决方案的中枢部位。未来结合大规模税务算法与税务知识图谱资源的累积,基于深度学习与自动算法生成能力,形成新一代的具有面对新型税务场景问题的多模态算法自动生成脑核,同时实现对于算量的精准调用、调度,对于算力的精准借用。

 由于我国税务系统数据留存、维护与运行的综合水平很高,实现税务大数据向税务大算法递升也最具备条件。在整体政府服务版图中,税务系统也以其数据总量大、数据质量高、系统升级周期快、全系统数字化程度高、智慧化探索积极而走在数字化政务治理建设的前列,而中国税务大算法建设,也将使得税务系统在新一代智能政务建设与数字化治理转型中,为政务大算法建设提供引领性的思路触动、标杆示范与资源支持。

 5、前后台效应:税务算法与税收征管工作

 税务数据的智能化应用帮助纳税缴费人高效办事,而大量的办事痕迹形成更多数据,如果数据转化为算法并不断精化算法,则可以支持办事效率持续提高与办事方式持续优化;站在税收征管与纳税缴费服务角度,如果数据转化为算法并精化算法,则可以支持高效处置特定事项并优化处置方式。对于税务算法工作重视,将更多领域的办事标杆与大量数据洞察中转化而出的税务算法,用于支持税收征管与纳税服务最佳办事方式的普及化、办事中遇到的共性问题优化解决高效化、监测数据中问题的垂直深度发现与联动分析常态化、多类问题整合分析与决策提示上升到更高的层次,有了税务算法支撑的智能后台,能有效实现税收征管工作前后台问题场景的“发现—判定—决策—解决—反馈”一体化。从税务系统之内通税务数据税务系统之上有税务算法集合,形象地说,不断升级丰富的税务算法集合使得,现有的拥有即时场景数据感应供应与问题反射能力的“八爪鱼”体系,上升到拥有“税务脑核”智能对策系统覆盖的有机税务智慧体系。

 6、税务算法的能力体系与赋能机制

 税务算法构建需要较大规模的税务场景问题及其相关数据(包括必要的实地大调研数据)的汇集能力、税务服务与管理领域的经验规则提炼能力、运用程序语言表达最佳业务规则的转化能力、税务算法逻辑架构与税务解决方案运筹能力、推动税务算法通俗化推广与应用能力。以税务算法集合为内容的税务脑核一旦形成,将极大地提升有目的地调用税务数据资源的能力、合理利用税务算力的能力、甚至应用相关数据监测国民经济实际运行状况及提供智慧对策的能力。

 中国税务算法体系与税务脑核的建成,可有效推动双赋能”目标:税务部门透过算法分享与政务服务其他板块之间实现算法支持与算法对接;实现不同层级税务部门之间税务算法资源的赋能与分享,尤其是上级税务部门集中开发的算法与下级税务部门的分享。过往不同部门间与不同层级间的数据交流关系,将进一步因算法资源交流关系而得到新的充实,这将引领数字化治理生态的新发展。

 7、中国税务算法建设应引领中国政务算法建设先声

 建设中国税务算法,当前需要做六件事:

 一是建设高水平的“中国税务算法中心实验室”(CLTA)和“中国税务算法资源中心”(CRTA)作为税务算法建设的前沿载体单位,鉴于全球算法产业化不同于算量产业、算力产业的巨头化特性而更具丰富化样态,因此CLTA和CRTA建设应在总局层面由信息化部门和纳税部门共同参与,可以适度引进互联网界与IT系统建设界的实力机构,还应充分考虑计算界、应用数学界、数据科学界的海归型专家,部分在政务算法领域有先行实践经验的专业架构共同参与,CLTA也可在全国不同区域税务部门选择建设6-7个分实验室;

 二是形成“中国税务算法建设三年行动计划”,重点规划重点聚焦的税务工作场景、税务知识图谱建设、税务算法建设年度建设成果预期、中心实验室与分实验室工作分工及其内部合作伙伴业务分工、制定鼓励与推动税务算法发展的专项政策,将税务算法建设纳入到智慧税务建设与智慧化纳税服务的工作大框架中;

 三是展开税务算法开发金算计划”,推动以12366税务服务热线问题与诉求、税务稽查与税收征管中遇到的典型问题场景、线上线下税务办事大厅事项、大厅服务探头系统与感知数据系统中的事项为线索,以集中采购、开发擂台赛、平行算法应用实验等途径,在现有金税系统建设开发的基础上,实现税务算法模块的丰富化,为“税务脑核”初期提供足够的启动性算法资源;

 四是规划年度中国税务算法最佳实践案例大赛,让更多的专业团队能聚焦所发布的税务工作场景,为税务算法发育与壮大实现供需匹配,让一批获得金算奖”的优秀机构,列入税务部门可重点对接服务的税务算法供应商长名单和短名单

 五是支持发展“产教融合以产主导”的税务算法人才实训培养基地,在财经专业与计算专业交叉的基础上,支持5-6个应用型高校基地每年实训超过1000名税务算法师(算法工程师、算法科学家、算法架构师)人才;六是经费投入,要切实改变预算投入中重系统轻应用的做法,保证税务算法与税务脑核达到支持高质量智慧警务运作的水平,其预算水平应不低于整体智慧税务投入的7~15%。

建设数据分析与决策智能业的中国典范