甜薪工场甜薪工场
甜薪工场
工作者接单雇主招人
查看岗位
人才库人才详情

我擅长大数据开发岗位

范传松
产品研发/Java零售/电商bilibili公众号抖音
个人优势
熟悉 Hadoop 集群的搭建以及优化,HDFS 的读写流程,Yarn 的工作原理和组成架构, MapReduce 组成架构以及运行过程中 Shuffle 的优化;
熟练掌握Flume的组成结构以及如何进行调优,Flume的自定义拦截器和组件的底层原理, 以及在生产环境中如何高效率的选择 Channel 选择器;
熟悉 Zookeeper 的选举机制,以及常用命令和集群的搭配;
熟练掌握 Kafka 的集成架构,Producer、Broker、Consumer、Zookeeper,Kafka 生产 者的发送流程、分区分配策略、ACKS 的级别划分,消费者的分区分配策略、Offset 的存储、Kafka 的重点参数调优;
熟练掌握 Hive 的组成以及 HQL 转换为 MR 的具体流程,系统函数、窗口函数和自定义 UDF、 UDTF 函数的使用,开发过程中多种优化;
熟悉 HBase 的架构组成,Hbase 的读数据流程和写数据流程,RowKey 的设计原则;
掌握 Spark 中的内核源码,YarnCluster 模式提交的具体流程,Shuffle 流程的优化以及 Spark 的数据倾斜问题的解决;
熟悉 SparkStreaming 的被压机制、有状态计算、窗口计算和优雅的关闭;
熟练掌握 Flink 的基本架构组成,Yarn-per-job 模式的提交流程和内存模型,Flink 与 Spark Streaming 的区别,如何实现端到端的一致性;
掌握 Flink 的数据倾斜如何进行定位、分析、解决,Watermark 机制和窗口的运用,以及 CEP 代码的编译;
熟悉数据湖 Hudi 的数据读取方式以及表的类型和优势;
工作经历
暂无
教育经历
武汉科技大学
计算机应用技术本科2017.09 ~ 2020.07
项目经历
易购商城每日数据报表平台
2020.06 ~ 2020.10
项目职责:项目架构: MySQL +Maxwell + DataX + Flume + Zookeeper + Kafka +HDFS +Hive + Spark + Superset + DolphinScheduler 项目描述: 首先做离线数据的采集通道,采集通道稳定以后进行离线数仓的搭建,对数据进行一个 分层处理,减少重复开发和重复计算,可以复用每一层的结果,排查定位问题变得简单,有 利于后期维护,将数据可视化展示。 职责描述: 1. 负责数据指标体系的调研,构建业务矩阵,建模的选型以及数据仓库的搭建; 2. 常见的需求指标的计算以及分析,日活、月活、留存率、转化率、七天内连续三天登录; 3. 负责对指标进行可视化展示; 4. 解决运行的时候出现宕机、脏数据、复杂数据类型等其他异常问题; 5. 参与对性能的各种调优和对数据产生倾斜问题的解决; 6. 使用各层的脚本进行任务的调度; 技术描述: 1. 采用分区表,Snappy 压缩和 ORC 列式存储,对于日志数据建立 JSON 表; 2. 对数据进行分析,对敏感数据进行加密脱敏,对过期数据进行删除、重复数据过滤; 3. 对于加购、库存使用周期性快照事实表,对于像订单事实表这种记录一个业务流程的表、 多个事实表相互关联等使用累积型快照事实表; 4. 在缓慢变化维的场景下对用户表做了一个拉链; 5. 关闭 CBO 优化,解决无法按照结构体数组过滤的问题;临时切换 MR 引擎,解决子查询中 含有结构体数组报错的问题; 6. 使用 DolphinScheduler 调度工具调度各层的脚本,完成任务的调度; 7. 宽表层在指标拆解后进行合理的粒度细化,以便支持 7 日、30 日宽表数据统计和更丰富 指标的计算; 8. 对数据进行有序和有结构的分类组织和存储,避免数据不一致性,保证数据的规范;
查看详情
易购商城用户标签平台
2021.03 ~ 2021.05
项目职责:项目描述: 主要负责把用户信息标签化,对标签化的数据进行分群、洞察分析,再进行建模,规划 成四级标签,通过单表的合并导出到 ClickHouse 中进而存储为 Bitmap 表。 职责描述: 1. 对数据进行标签的建模,根据用户的需求,和产品经理进行协调一起规划了四级标签; 2. 通过根据每个标签的业务逻辑编写 SQL,生产标签单表; 3. 把标签单表合并为标签宽表,把标签宽表导出到 Clickhouse 中的标签宽表; 4. 把 Clickhouse 中的标签表转储为 Bitmap 表,四个任务通过编写 Spark 程序完成。并 通过画像平台调度,以后新增标签只需要在平台填写标签定义、SQL 及相关参数即可。 技术描述: 1. 当求两个集合的交集运算时,对位进行与运算,就可以不用遍历两个集合; 2. 把每个标签的用户 id 集合放在一个 Bitmap 中,那多个标签求交集(比如: 女性 + 90 后)这种分群筛选时,就可以通过两个标签的 Bitmap 求交集运算即可;
查看详情
易购商城实时报表平台
2021.08 ~ 2021.11
项目职责:项目架构: MySQL + Maxwell + Flume + Zookeeper + Kafka + Flink + Hbase + Redis + ClickHouse + Sugar 项目描述: 采集通道和离线通道稳定以后,产品需求和内部决策对于数据实时性要求越来越迫切, 传统的 T+1 模式已经不能满足,进行实时数仓的搭建,实时的对公司数据进行采集和处理, 来一条数据处理一条数据。 职责描述: 1. 负责调研数仓架构,建模选型,数仓的搭建; 2. 参与对性能的各种调优与数据倾斜问题的解决和引起反压的解决; 3. 负责对指标进行可视化展示; 4. 对需求的指标进行计算和分析,需求、日活、新增、留存、转化率、GMV 等; 5. 解决运行的时候出现宕机,数据出现异常问题; 技术描述: 1. 使用异步 IO 异步查询把维表的查询操作托管给单独的线程池完成,这样不会因为某一个 查询造成阻塞,单个并行可以连续发送多个请求,提高并发效率。 2. 使用旁路缓存模式按需分配缓存; 3. 使用 Hbase 存储维度数据,基于热存储加载维表的 join 方案,支持随即查,适合实时 读写,为长远做考虑; 4. 选择 ClickHouse 存储 DWS 宽表数据,使聚合统计分析变快,适合大宽表,数据量多 的数据; 5. 使用轻度聚合的方式减轻写 ClickHouse 的压力,减少后续聚合的时间,将更多的实时 数据以主题的方式组合起来便于管理,同时也能减少维度查询的次数。 6. 利用 flatmap 攒批、预聚合或者开启 MiniBatch+LocalGlobal 来对单表分组聚合产生 的数据(纯流式)倾斜进行解决; 7. 写入 Hbase 借助 Phoenix,不做维度退化,维表数据量小、变化频率满,使用 Phoenix 创建的盐表,可以有效的避免数据热点问题;
查看详情

相似职位推荐

我擅长6年java开发经验,熟练掌握后台开发技术,快速解决问题

1. 6年java开发经验 2. 有农业物联网软件开发、微信小程序开发、WMS仓储软件开发,ESB服务集成等,以及地理信息国土规划方向软件开发经验。 3.技术栈有SpringBoot,SpringCLoud,Docker,Kubernetes等容器技术,ElaticSreach,Redis,Nginx负载均衡等,Netty、WebSocet网络通信,多线程并发,分布式集群,JVM 4. 掌握设计模式设计思路以及DDD领域驱动架构设计。 5. 日常善于积累技术,学习能力强,工作认真、踏实靠谱,积极向上。
bilibili微博政府/社会机构互联网/科技其他
全日/半日均可 ¥ 25,000/月

我擅长五年半的JAVA开发工作经验,熟练掌握前后端开发技术

5年半开发经验,精通Java编程语言,熟练使用Spring、SpringBoot、Mybatis等框架,熟练使用MySQL、Oracle、Sqlite关系型数据库,和Javascript、JQuery、CSS等前端技术,熟悉Kafka、Hadoop等前沿技术。曾独立带领团队完成项目的研发工作。
知乎互联网/科技
全日/半日均可 ¥ 18,000/月