lemondy | 开发者、设计师、细节控、创始人

教育经历

硕士(Master Degree)：北京理工大学计算机学院(Beijing Institute of Technology)，软件工程专业，2014.9～2017.7

本科(Bachelor degree)：武汉纺织大学计算机学院(Wuhan Textile University)，软件工程，2010.9～2014.7

通过英语CET4/6考试

工作经历

我这几年：

阅文集团 - 资深用户画像数据挖掘工程师 - 2020.10~至今：主要负责用户画像标签的挖掘、用户增长策略、内容推荐等工作。
字节跳动 - 高级数据挖掘工程师 - 2019.9~2020.10：承担过数据分析师、用户增长算法工程师、服务端开发等工作。
百度 - 数据挖掘工程师 - 2017.3~2019.9：主要是大数据开发和服务端开发。

项目经历

个性化push策略：关键点是：选择合适的推送时间、选择用户最感兴趣的书籍、组装用户最感兴趣的文案；

推送时机：推送时间的策略经过3个版本迭代：
- 第一版：根据App活跃峰值时间点确定推送时间，和产品一起确定早上7点、上午10点、晚上19点三个固定的推送时间点；
- 第二版：根据用户在App内过去30天活跃数据，建设粗略版本用户常活跃时间段，然后在用户常活跃时间前半个小时进行推送；
- 第三版：根据腾讯系设备活跃实时信号，消费实时kafka设备活跃数据，实时推送；
人书召回:类似推荐系统，关键点是匹配用户最感兴趣的书籍，书籍匹配策略迭代了2个版本：
- 第一版：建设用户人-书评分表数据，评分表中记录每个用户对书籍的偏好分数；基于人-书-分数，建设书籍向量数据（book2vec）；基于用户向量和书籍向量，计算用户对书籍的偏好分数，推荐分数最高的书籍；
- 第二版：增加多通道召回数据；建设用户在app内进30天的搜索/找书行为数据，基于找书通道进行书籍召回，然后和基于评分表召回通道结果交替进行推送；
文案点击预估模型：预估用户对每条候选文案的点击率文案点击率模型构建步骤：
- 特征工程：抽取用户画像特征、用户行为特征、文案特征；
- 模型选择：Lightgbm建模，二分类问题、CTR预估；
- 模型评估：AUC、F1、Precision、Recall；

新用户LTV预估：

实现步骤
- 特征工程：抽取渠道来源特征、渠道拉新素材特征、用户下载app后在端内活跃、阅读时长、付费等行为特征；
- 模型选择：幂函数拟合、lightgbm、深度学习、MOE多目标尝试；
- 模型评估：主要是用MAPE评估预估偏差；
- ltv1:使用D0一天数据预估，测试集MAPE：10%；
- ltv3:使用D0、D1两天数据，测试集MAPE：8.6%
- ltv7:使用D0、D1、D2三天数据，测试集MAPE：8.8%
- ltv30:使用D0～D6 七天数据，测试集MAPE：10.9%

老用户流失预测：

流失预测模型
- 用户流失口径定义:优先和业务侧对齐业务侧口径，确定目标用户人群（新用户、老用户）；如果业务侧没有明确流失口径，可以通过用户活跃度、用户付费情况、用户行为等维度定义流失口径；通常可以基于用户行为的回访率拐点来确定流失口径；
- 特征工程:
- 基础类：抽取用户近期（7天、30天、90天等）活跃、阅读、付费等维度特征；
- 变化趋势类：加工用户行为变化率类特征，如前后两周活跃天数变化率、阅读时长变化率、付费金额/频次变化率；
- 模型选择:基于模型预测效果、模型复杂度、模型的可解释性等维度选择使用lightgbm模型；
- 模型调优：对于树模型，主要调优参数包括：树的棵树、树的深度、叶子节点数、学习率、正则化参数等；这些参数一般可以通过网格搜索、贝叶斯优化等方式进行调优；
- 模型评估：
- 评估指标：AUC、F1、Precision、Recall；
- 离线评估：将离线数据分位：训练集、验证集、测试集；在测试集上计算准召、F1等指标；
- 线上评估：直接用模型预估最新的用户数据，N天后评估模型预估效果；
- 模型上线：离线利用用户最新的特征数据，执行预测模型，产出每个用户预测的流失概率；
流失原因分析：通过分析用户流失原因，针对性的制定端内优化策略，降低用户流失率；
- 流失原因分析
- 流失原因解决方案

用户运营增长：

用户生命周期
- 用户分层
- 用户生命周期定义
- 用户生命周期策略
红包/金币激励策略:
金币激励策略通常能显著的拉新新用户、促进用户活跃、延长用户留存/活跃时间；但是红包/金币发出去的是真实成本，需要保持这个事项的ROI大于1才可以保证业务形态的可持续发展；
通过奖励加衰减因子、不健康用户打压、金币敏感度模型、广告ECPM模型等手段在一个双月内实现成本降低50%，用户留存下降1%以内

用户画像标签挖掘：

用户书籍评分表偏好
计算用户对书籍的阅读、购买、收藏、投票等行为的TF-IDF值，作为行为对应的权重，然后乘以行为累积值，接着对分数进行线性累加，之后对分数进行缩放，计算出来用户对书籍的评分表，最后使用牛顿冷却公示对这个分数按照时间进行衰减；
基于构建的人书分数，进一步训练书籍B2V向量，推荐服务使用书籍embedding向量进行相似书籍召回；
用户长短期兴趣：长期一般是指3个月的兴趣；短期一般是近2天；
用户兴趣转移

账户打通IDMapping

账户规则打通：通过规则将各种ID（设备ID、账号ID、cookieid等）归属到同一个自然人。
- 技术点：mapreduce、hive sql、hadoop、连通图
- 主要逻辑：通过一条日志里面出现的多个id对，构建ID之间关系边，多个ID之间通过边形成图，然后通过连通图将整体划分出一个个子图；
- 主要难点：数据量级大、数据脏（格式不统一、异常数据、作弊/刷子数据等）
账户模型策略打通：通过算法模型，预测多个设备维度是否是同一个自然人。
- IP粗分桶：建设设备近期常使用的IP，然后将使用相同IP的设备分到同一个桶，在同一个桶内预测任意两个设备是否是同一个自然人；
- 精分桶：使用lr预估；
- 模型打通/预测：dnn；
ID在线打通查询服务
- 技术点：C++、Brpc服务、高性能
- 主要逻辑：离线构建ID与自然人正反向关联关系，将映射关系导入在线kv存储，在线服务支持同一个自然人任意ID之间打通查询；

有声小说字幕识别（ASR）

字幕识别模型
- 前期方案调研:对比了B站自动生成的字幕、飞书妙记、叮叮、讯飞、百度PaddleSpeech 语音转文本能力
- 模型选择：fast-whisper(large-v2)
- 模型效果：通过asr转录、人名修正/关键词修正、小说原文关联修正、幻听修正等操作，最后转录的WER在4%以内；
落地项目
- 广告片段识别：主要针对有声书前两分钟和后两分钟的音频进行广告识别；音频切片后，输入到whisper模型中；
- 有声书字幕：主要经过步骤：asr模型字幕识别、音频字幕匹配原文修正、修正书名、作者名、主播名、关键字等、广告识别、标点符号增加；

技能清单

编程语言：Python、Java、C++、Go、Shell
大数据处理：SQL、Hive、Spark、MapReduce、PySpark、hadoop
机器学习：Tensorflow、Keras、PyTorch、Scikit-learn、聚类算法、XGBoost、Lightgbm、DeepFm

其他

专利：用户标识关联查询方法、装置、设备及可读存储介质

About lemondy / 关于lemondy

教育经历

工作经历

项目经历

技能清单

其他

动态更新

动态更新