教育经历
工作经历
我这几年:
- 阅文集团 - 资深用户画像数据挖掘工程师 - 2020.10~至今:主要负责用户画像标签的挖掘、用户增长策略、内容推荐等工作。
- 字节跳动 - 高级数据挖掘工程师 - 2019.9~2020.10:承担过数据分析师、用户增长算法工程师、服务端开发等工作。
- 百度 - 数据挖掘工程师 - 2017.3~2019.9:主要是大数据开发和服务端开发。
项目经历
个性化push策略:关键点是:选择合适的推送时间、选择用户最感兴趣的书籍、组装用户最感兴趣的文案;
- 推送时机:推送时间的策略经过3个版本迭代:
- 第一版:根据App活跃峰值时间点确定推送时间,和产品一起确定早上7点、上午10点、晚上19点三个固定的推送时间点;
- 第二版:根据用户在App内过去30天活跃数据,建设粗略版本用户常活跃时间段,然后在用户常活跃时间前半个小时进行推送;
- 第三版:根据腾讯系设备活跃实时信号,消费实时kafka设备活跃数据,实时推送;
- 人书召回:类似推荐系统,关键点是匹配用户最感兴趣的书籍,书籍匹配策略迭代了2个版本:
- 第一版:建设用户人-书评分表数据,评分表中记录每个用户对书籍的偏好分数;基于人-书-分数,建设书籍向量数据(book2vec);基于用户向量和书籍向量,计算用户对书籍的偏好分数,推荐分数最高的书籍;
- 第二版:增加多通道召回数据;建设用户在app内进30天的搜索/找书行为数据,基于找书通道进行书籍召回,然后和基于评分表召回通道结果交替进行推送;
- 文案点击预估模型:预估用户对每条候选文案的点击率文案点击率模型构建步骤:
- 特征工程:抽取用户画像特征、用户行为特征、文案特征;
- 模型选择:Lightgbm建模,二分类问题、CTR预估;
- 模型评估:AUC、F1、Precision、Recall;
新用户LTV预估:
- 实现步骤
- 特征工程:抽取渠道来源特征、渠道拉新素材特征、用户下载app后在端内活跃、阅读时长、付费等行为特征;
- 模型选择:幂函数拟合、lightgbm、深度学习、MOE多目标尝试;
- 模型评估:主要是用MAPE评估预估偏差;
- ltv1:使用D0一天数据预估,测试集MAPE:10%;
- ltv3:使用D0、D1两天数据,测试集MAPE:8.6%
- ltv7:使用D0、D1、D2三天数据,测试集MAPE:8.8%
- ltv30:使用D0~D6 七天数据,测试集MAPE:10.9%
老用户流失预测:
- 流失预测模型
- 用户流失口径定义:优先和业务侧对齐业务侧口径,确定目标用户人群(新用户、老用户); 如果业务侧没有明确流失口径,可以通过用户活跃度、用户付费情况、用户行为等维度定义流失口径; 通常可以基于用户行为的回访率拐点来确定流失口径;
- 特征工程:
- 基础类:抽取用户近期(7天、30天、90天等)活跃、阅读、付费等维度特征;
- 变化趋势类:加工用户行为变化率类特征,如前后两周活跃天数变化率、阅读时长变化率、付费金额/频次变化率;
- 模型选择:基于模型预测效果、模型复杂度、模型的可解释性等维度选择使用lightgbm模型;
- 模型调优: 对于树模型,主要调优参数包括:树的棵树、树的深度、叶子节点数、学习率、正则化参数等; 这些参数一般可以通过网格搜索、贝叶斯优化等方式进行调优;
- 模型评估:
- 评估指标:AUC、F1、Precision、Recall;
- 离线评估:将离线数据分位:训练集、验证集、测试集;在测试集上计算准召、F1等指标;
- 线上评估:直接用模型预估最新的用户数据,N天后评估模型预估效果;
- 模型上线:离线利用用户最新的特征数据,执行预测模型,产出每个用户预测的流失概率;
- 流失原因分析
- 流失原因解决方案
用户运营增长:
- 用户生命周期
- 用户分层
- 用户生命周期定义
- 用户生命周期策略
- 红包/金币激励策略:
- 金币激励策略通常能显著的拉新新用户、促进用户活跃、延长用户留存/活跃时间;但是红包/金币发出去的是真实成本,需要保持这个事项的ROI大于1才可以保证业务形态的可持续发展;
- 通过奖励加衰减因子、不健康用户打压、金币敏感度模型、广告ECPM模型等手段在一个双月内实现成本降低50%,用户留存下降1%以内
用户画像标签挖掘:
- 用户书籍评分表偏好
- 计算用户对书籍的阅读、购买、收藏、投票等行为的TF-IDF值,作为行为对应的权重,然后乘以行为累积值,接着对分数进行线性累加,之后对分数进行缩放,计算出来用户对书籍的评分表,最后使用牛顿冷却公示对这个分数按照时间进行衰减;
- 基于构建的人书分数,进一步训练书籍B2V向量,推荐服务使用书籍embedding向量进行相似书籍召回;
- 用户长短期兴趣:长期一般是指3个月的兴趣;短期一般是近2天;
- 用户兴趣转移
账户打通IDMapping
- 账户规则打通:通过规则将各种ID(设备ID、账号ID、cookieid等)归属到同一个自然人。
- 技术点:mapreduce、hive sql、hadoop、连通图
- 主要逻辑:通过一条日志里面出现的多个id对,构建ID之间关系边,多个ID之间通过边形成图,然后通过连通图将整体划分出一个个子图;
- 主要难点:数据量级大、数据脏(格式不统一、异常数据、作弊/刷子数据等)
- 账户模型策略打通:通过算法模型,预测多个设备维度是否是同一个自然人。
- IP粗分桶:建设设备近期常使用的IP,然后将使用相同IP的设备分到同一个桶,在同一个桶内预测任意两个设备是否是同一个自然人;
- 精分桶:使用lr预估;
- 模型打通/预测:dnn;
- ID在线打通查询服务
- 技术点:C++、Brpc服务、高性能
- 主要逻辑:离线构建ID与自然人正反向关联关系,将映射关系导入在线kv存储,在线服务支持同一个自然人任意ID之间打通查询;
有声小说字幕识别(ASR)
- 字幕识别模型
- 前期方案调研:对比了B站自动生成的字幕、飞书妙记、叮叮、讯飞、百度PaddleSpeech 语音转文本能力
- 模型选择:fast-whisper(large-v2)
- 模型效果:通过asr转录、人名修正/关键词修正、小说原文关联修正、幻听修正等操作,最后转录的WER在4%以内;
- 落地项目
- 广告片段识别:主要针对有声书前两分钟和后两分钟的音频进行广告识别;音频切片后,输入到whisper模型中;
- 有声书字幕: 主要经过步骤:asr模型字幕识别、音频字幕匹配原文修正、修正书名、作者名、主播名、关键字等、广告识别、标点符号增加;
技能清单
- 编程语言:Python、Java、C++、Go、Shell
- 大数据处理:SQL、Hive、Spark、MapReduce、PySpark、hadoop
- 机器学习:Tensorflow、Keras、PyTorch、Scikit-learn、聚类算法、XGBoost、Lightgbm、DeepFm