项目职责:1、公司内部数据计算Kubeflow平台,主要做ML模型训练和运行jupyternotebook。项目利用terraform管理基础设施建设,实现gitops原理,服务构建在gcp云上,利用弹性扩容技术充分发挥服务的伸缩性实现流程:1.1使用terraform+packer作为实现基础Linux应用镜像的构建1.2编写terraform+ansible实现服务器应用的部署、启动、定时备份和还原1.3使用bigquery+Rfluent服务实现日志采集分析,并用terraform构建alerting实现邮件告警通知1.4全过程使用jenkinspipeline+gitlabwebhook实现CICD自动构建1.5使用terraform构建GPU服务器,并自动安装对应版本的cuda+cudnn