范传松,大数据开发岗位

我擅长大数据开发岗位

范传松

产品研发/Java零售/电商bilibili公众号抖音

个人优势

熟悉 Hadoop 集群的搭建以及优化，HDFS 的读写流程，Yarn 的工作原理和组成架构， MapReduce 组成架构以及运行过程中 Shuffle 的优化;
熟练掌握Flume的组成结构以及如何进行调优，Flume的自定义拦截器和组件的底层原理，以及在生产环境中如何高效率的选择 Channel 选择器;
熟悉 Zookeeper 的选举机制，以及常用命令和集群的搭配;
熟练掌握 Kafka 的集成架构，Producer、Broker、Consumer、Zookeeper，Kafka 生产者的发送流程、分区分配策略、ACKS 的级别划分，消费者的分区分配策略、Offset 的存储、Kafka 的重点参数调优;
熟练掌握 Hive 的组成以及 HQL 转换为 MR 的具体流程，系统函数、窗口函数和自定义 UDF、 UDTF 函数的使用，开发过程中多种优化;
熟悉 HBase 的架构组成，Hbase 的读数据流程和写数据流程，RowKey 的设计原则;
掌握 Spark 中的内核源码，YarnCluster 模式提交的具体流程，Shuffle 流程的优化以及 Spark 的数据倾斜问题的解决;
熟悉 SparkStreaming 的被压机制、有状态计算、窗口计算和优雅的关闭;
熟练掌握 Flink 的基本架构组成，Yarn-per-job 模式的提交流程和内存模型，Flink 与 Spark Streaming 的区别，如何实现端到端的一致性;
掌握 Flink 的数据倾斜如何进行定位、分析、解决，Watermark 机制和窗口的运用，以及 CEP 代码的编译;
熟悉数据湖 Hudi 的数据读取方式以及表的类型和优势;

工作经历

暂无

教育经历

武汉科技大学

计算机应用技术，本科2017.09 ~ 2020.07

项目经历

易购商城每日数据报表平台

2020.06 ~ 2020.10

项目职责：项目架构: MySQL +Maxwell + DataX + Flume + Zookeeper + Kafka +HDFS +Hive + Spark + Superset + DolphinScheduler 项目描述: 首先做离线数据的采集通道，采集通道稳定以后进行离线数仓的搭建，对数据进行一个分层处理，减少重复开发和重复计算，可以复用每一层的结果，排查定位问题变得简单，有利于后期维护，将数据可视化展示。职责描述: 1. 负责数据指标体系的调研，构建业务矩阵，建模的选型以及数据仓库的搭建； 2. 常见的需求指标的计算以及分析，日活、月活、留存率、转化率、七天内连续三天登录； 3. 负责对指标进行可视化展示； 4. 解决运行的时候出现宕机、脏数据、复杂数据类型等其他异常问题； 5. 参与对性能的各种调优和对数据产生倾斜问题的解决； 6. 使用各层的脚本进行任务的调度；技术描述: 1. 采用分区表，Snappy 压缩和 ORC 列式存储，对于日志数据建立 JSON 表； 2. 对数据进行分析，对敏感数据进行加密脱敏，对过期数据进行删除、重复数据过滤； 3. 对于加购、库存使用周期性快照事实表，对于像订单事实表这种记录一个业务流程的表、多个事实表相互关联等使用累积型快照事实表； 4. 在缓慢变化维的场景下对用户表做了一个拉链； 5. 关闭 CBO 优化，解决无法按照结构体数组过滤的问题；临时切换 MR 引擎，解决子查询中含有结构体数组报错的问题； 6. 使用 DolphinScheduler 调度工具调度各层的脚本，完成任务的调度； 7. 宽表层在指标拆解后进行合理的粒度细化，以便支持 7 日、30 日宽表数据统计和更丰富指标的计算； 8. 对数据进行有序和有结构的分类组织和存储，避免数据不一致性，保证数据的规范；

查看详情

易购商城用户标签平台

2021.03 ~ 2021.05

项目职责：项目描述: 主要负责把用户信息标签化，对标签化的数据进行分群、洞察分析，再进行建模，规划成四级标签，通过单表的合并导出到 ClickHouse 中进而存储为 Bitmap 表。职责描述: 1. 对数据进行标签的建模，根据用户的需求，和产品经理进行协调一起规划了四级标签； 2. 通过根据每个标签的业务逻辑编写 SQL，生产标签单表； 3. 把标签单表合并为标签宽表，把标签宽表导出到 Clickhouse 中的标签宽表； 4. 把 Clickhouse 中的标签表转储为 Bitmap 表，四个任务通过编写 Spark 程序完成。并通过画像平台调度，以后新增标签只需要在平台填写标签定义、SQL 及相关参数即可。技术描述: 1. 当求两个集合的交集运算时，对位进行与运算，就可以不用遍历两个集合； 2. 把每个标签的用户 id 集合放在一个 Bitmap 中，那多个标签求交集（比如: 女性 + 90 后）这种分群筛选时，就可以通过两个标签的 Bitmap 求交集运算即可；

查看详情

易购商城实时报表平台

2021.08 ~ 2021.11

项目职责：项目架构: MySQL + Maxwell + Flume + Zookeeper + Kafka + Flink + Hbase + Redis + ClickHouse + Sugar 项目描述: 采集通道和离线通道稳定以后，产品需求和内部决策对于数据实时性要求越来越迫切，传统的 T+1 模式已经不能满足，进行实时数仓的搭建，实时的对公司数据进行采集和处理，来一条数据处理一条数据。职责描述: 1. 负责调研数仓架构，建模选型，数仓的搭建； 2. 参与对性能的各种调优与数据倾斜问题的解决和引起反压的解决； 3. 负责对指标进行可视化展示； 4. 对需求的指标进行计算和分析，需求、日活、新增、留存、转化率、GMV 等； 5. 解决运行的时候出现宕机，数据出现异常问题；技术描述: 1. 使用异步 IO 异步查询把维表的查询操作托管给单独的线程池完成，这样不会因为某一个查询造成阻塞，单个并行可以连续发送多个请求，提高并发效率。 2. 使用旁路缓存模式按需分配缓存； 3. 使用 Hbase 存储维度数据，基于热存储加载维表的 join 方案，支持随即查，适合实时读写，为长远做考虑； 4. 选择 ClickHouse 存储 DWS 宽表数据，使聚合统计分析变快，适合大宽表，数据量多的数据； 5. 使用轻度聚合的方式减轻写 ClickHouse 的压力，减少后续聚合的时间，将更多的实时数据以主题的方式组合起来便于管理，同时也能减少维度查询的次数。 6. 利用 flatmap 攒批、预聚合或者开启 MiniBatch+LocalGlobal 来对单表分组聚合产生的数据（纯流式）倾斜进行解决； 7. 写入 Hbase 借助 Phoenix，不做维度退化，维表数据量小、变化频率满，使用 Phoenix 创建的盐表，可以有效的避免数据热点问题；

查看详情

月薪

¥ 18,000/月

全日 8 小时，上午 09:00 ~ 下午 18:00

第 1 天试用免费

按周结算支付

按天计算费用，随需雇佣和中止

相似职位推荐

我擅长6年java开发经验，熟练掌握后台开发技术，快速解决问题

杜凤

1. 6年java开发经验 2. 有农业物联网软件开发、微信小程序开发、WMS仓储软件开发，ESB服务集成等，以及地理信息国土规划方向软件开发经验。 3.技术栈有SpringBoot，SpringCLoud，Docker,Kubernetes等容器技术，ElaticSreach，Redis，Nginx负载均衡等，Netty、WebSocet网络通信，多线程并发，分布式集群，JVM 4. 掌握设计模式设计思路以及DDD领域驱动架构设计。 5. 日常善于积累技术，学习能力强，工作认真、踏实靠谱，积极向上。

bilibili微博政府/社会机构互联网/科技其他

全日/半日均可 ¥ 25,000/月