技能描述
熟悉 Hadoop 集群的搭建以及优化,HDFS 的读写流程,Yarn 的工作原理和组成架构, MapReduce 组成架构以及运行过程中 Shuffle 的优化;
熟练掌握Flume的组成结构以及如何进行调优,Flume的自定义拦截器和组件的底层原理, 以及在生产环境中如何高效率的选择 Channel 选择器;
熟悉 Zookeeper 的选举机制,以及常用命令和集群的搭配;
熟练掌握 Kafka 的集成架构,Producer、Broker、Consumer、Zookeeper,Kafka 生产 者的发送流程、分区分配策略、ACKS 的级别划分,消费者的分区分配策略、Offset 的存储、Kafka 的重点参数调优;
熟练掌握 Hive 的组成以及 HQL 转换为 MR 的具体流程,系统函数、窗口函数和自定义 UDF、 UDTF 函数的使用,开发过程中多种优化;
熟悉 HBase 的架构组成,Hbase 的读数据流程和写数据流程,RowKey 的设计原则;
掌握 Spark 中的内核源码,YarnCluster 模式提交的具体流程,Shuffle 流程的优化以及 Spark 的数据倾斜问题的解决;
熟悉 SparkStreaming 的被压机制、有状态计算、窗口计算和优雅的关闭;
熟练掌握 Flink 的基本架构组成,Yarn-per-job 模式的提交流程和内存模型,Flink 与 Spark Streaming 的区别,如何实现端到端的一致性;
掌握 Flink 的数据倾斜如何进行定位、分析、解决,Watermark 机制和窗口的运用,以及 CEP 代码的编译;
熟悉数据湖 Hudi 的数据读取方式以及表的类型和优势;