2023.03.15 加入,已入驻 410 天。
2023.03.15 加入,已入驻 410 天。
项目职责:1. 大数据应用开发,极速开票ETL设计、开发(主要是用hive做数据分析); 极速开票客户端上传发票日志数据到kafka,用flume消费kafka数据写入到hive日表.针对日表定时跑ETL任务,写入到mysql。 1. 发票数据仓库建设以及对外接口开发(主要是用hbase作为发票仓库存储,netty提供对外接口查验功能); 发票仓库是对全公司所有采集到的发票数据归集,整理。经过加工整理的发票数据提供给各个业务线以及图像识别 1. 财税助手 主要使用kafka收集数据,es建立维度查询索引,hbase作为数据源 财税助手项目面向各个企业用户提供财税相关的业务处理,如报税、申税、发票查验、数据统计等;数据来源通过客户端采集,上传到kafka,通过消费kafka的数据,双写hbase以及es。Hbase存储整张发票数据,es建立部分字段索引提供检索。 1. BI项目中各个组件的安装、维护与使用,主要以hive、mysql为数据源、presto作为计算引擎,metabase为应用展示 此项目为满足运营各种不同的需求报表,数据源主要是以极速开票日志数据为主,用开源的metabase做应用报表。 1. 新项目BI系统的开发,其中负责将sql转为elasticsearch的可执行查询语句 在该项目中主要用mosql-translator做二次开发,满足常用的查询,分组,条件,分页。 1. 广告日志系统中,流式计算方式flink对pv、uv以及曝光量的统计 1. 智能编码项目中,将kafka的数据消费,对其中的日志信息进行编码库的校验,及校验后的数据入库到hbase,提供分析 1. 极速开票集群以及大海集群的维护 1. 大海集群使用sparkSQL以及spark根据运营提供的需求统计发票数据各个维度的数据需求。