技术交易 登录 | 注册
股交交易 登录 | 注册
首页 > 技术交易 > 成果
黑龙江省涉税信息保障平台
发布时间: 2024-11-05 浏览量:8
  • 交易方式:
  • 联系电话:13936023580
  • 单位名称或姓名:
  • 技术领域:
  • 成果类型:
项目基本情况Basic information of the project
一、项目建设背景 为建立全省统一的涉税(涉费)信息保障平台,不断强化财政收入征收管理能力,建立更加公平、公正、合理的收入管理秩序,按照2017年4月7日通过的黑龙江省税收保障条例“省人民政府应当建立全省统一的涉税信息交换平台,实现全省涉税信息的交换和共享”,以及黑政办发【2019】3号“平台建设和管理由省政府统一领导,省级财政部门牵头”,经省政府同意,在涉税信息保障平台建设和管理工作小组办公室框架基础上成立平台建设推进组,负责全面推进全省涉税信息保障平台建设工作。黑龙江省财政信息中心作为推进组成员负责平台建设及上线试运行工作,负责确定系统建设方案、系统设计,与北京大数元公司共同完成了系统开发建设。 二、技术原理及性能指标 遵循商务智能(BI)技术架构,涉税平台由数据加工、大数据中心、多维数据分析等构成,应用架构采用客户端程序/应用服务器/大数据服务器群集三层架构,应用服务器采用J2EE标准进行开发。采用OLAP引擎、统计分析引擎、数据挖掘引擎、智能报表引擎、系统管理控制引擎等为涉税平台提供信息安全、多维数据分析、个性化信息服务、报表展现等功能。 按照综合治税(费)监管和分析的要求,建立适合多维分析的多维分析比对模型;根据分区设计、主题存储、数据加工、数据集市等建设需求,在各基础库、业务库基础上经数据抽取、加工、转换形成标准的ODS数据集中库、主题数据库、数据集市,存储不同类型数据,为数据挖掘、数据查询、分析提供基础;对涉税数据进行模糊关联比对,通过智能学习实现比对融合。 三、技术的创造性与先进性 采用传统数据仓库技术与Hadoop、Spark等新一代大数据技术相结合混合架构,使用Hadoop分布式集群、Kylin(麒麟)多维分析引擎、机器学习算法、网络爬虫、全文搜索技术Solr等先进技术。 1、利用Hadoop各组件完成涉税海量数据的加载、存储与计算处理。平台涉税信息的数据量已近10个TB存储在Hadoop的Hbase数据库中,采用多机热备保障数据持久化与数据安全;利用Sqoop组件将10亿条数据加载到Hadoop集群只需20分钟;利用Impala内存数据库查询千万级数据,如企业纳税排名,税源地图等功能在10秒内响应。 2、利用Apache Kylin提供的SQL查询接口及多维分析(OLAP)能力支持大规模数据,处理TB乃至PB级别的分析任务在亚秒级。平台多维分析功能通过采用Kylin分析引擎对大数据量、多查询条件的数据通过预先处理与分析,对涉税平台达到数亿条的税收收入主题数据查询在秒级响应。 3、采用深度学习与NLP自然语言处理技术,将税务及工商的企业登记信息与三方部门上报的企业信息进行智能匹配,实现标准的企业名称与不规范的三方部门企业名称匹配精准度达到85%以上。 4、采用成熟稳定的爬虫框架Scrapy,开发爬虫脚本,应用Python语言与Scrapy爬虫技术,爬取互联网政府公开数据,采集政府采购、土地交易、产权联合交易所公告信息、酒店信息、上市公司公告信息等数据。将互联网数据与涉税数据相结合,生成治税疑点模型,形成互联网+的效果。 5、采用Solr高性能企业级全文搜索服务,实现海量数据秒级返回搜索结果,利用其高效、灵活的缓存、垂直搜索功能,高亮显示搜索结果等,全省的涉税(费)数据已达到上亿条,根据涉税(费)数据的特点,对solr进行了封装,将涉税(费)数据与solr搜索服务结合,用户通过任意的搜索条件,快速获得需要检索的信息,并穿透到每一笔明细,提升用户体验,如“一户式”查询功能。 四、技术的成熟程度,适用范围和安全性 黑龙江省涉税信息保障平台2017年5月进行需求分析、系统方案设计,2017年12月开发,2018年5月在全省试运行,2018年10月全省正式运行,目前系统运行稳定。系统多种采集方式、自定义比对分析模型、数据分析功能达到预定设计目标,已有40个部门130个市县区3791家单位使用黑龙江省涉税平台,建立167个采集模板、60个数据比对分析模型,采集涉税(费)数据11.76亿条,发现78.16万条疑点。系统采用B/S结构,遵循等保三级建设标准,运行在财政专网、税务专网、政府政务外网上,系统安全可靠。 五、应用情况 平台于2018年建设完成并上线运行,实现了省市县三级的整体运转和互联互通,平台信息采集路径畅通、功能完善,数据清洗归集规范科学,疑点模型设置合理,模型运算正常平稳,生成涉税疑点准确,系统运行平稳。实现与市场监督、住建、自然资源等36家部门单位网络互通和数据共享,通过建立涵盖15个税种的涉税信息比对模型103个,生成涉税疑点信息,并通过核实实现查补税款。涉税信息保障平台建设实现了税额的较大幅度的增长,有效发挥了税收保障功能。