2023.03.16 加入,已入驻 428 天。
2023.03.16 加入,已入驻 428 天。
项目职责:数据存储: 1)由于任务分配的数据量比较大,mysql 等传统数据库不能满足需要,对分布式数据库进行预研,选择 tidb 作为在线系 统的数据库 2)后台即时查询分析系统采用 greenplum 数据库,满足大数据量的情况下,也满足查询性能 数据分析: 1)对用户的聊天纪录文本信息进行分词,提取用户爱好特征,加上用户的年龄,职业,性别,地域,婚否,专业等特征进 行分析 2)用基于用户的协同过滤算法分析出潜在用户的爱好,把该用户推荐给相关的微商 3)用基于内容(爱好)的协同过滤算法分析出爱好之间的关联性,把关联性比较大的爱好客户推荐给相关微商 4)尝试用基于模型的协同过滤算法进行推荐,用 k-means 进行用户或内容的聚类,把聚类用户群评分高的内容推荐给用 户,也用逻辑回归和朴素贝叶斯对用户进行分类,再把用户群评分高的内容推荐给用户 5)用关联推荐算法 apriori, fp-tree 进行推荐的研究 6)在上面的工作中,进行了数据预处理: 异常值处理,缺失值处理,分布可视化分析,特征提取和选择: 主要包括无效特 征的去除,年龄字段的离散化,onehotencoding, 基于 boosting 的 ababoost , gbdt, xgboost 和基于 bagging 的 随机森林 rf 等集成算法进行模型训练,取得了比较好的效果