About lemondy / 关于lemondy

我有后端开发、机器学习、数据挖掘、大数据处理、用户增长策略、用户画像、用户个性化推荐、内容创作等经验,可以为你解答相关的问题。

教育经历

  • 硕士(Master Degree):北京理工大学计算机学院(Beijing Institute of Technology),软件工程专业,2014.9~2017.7
  • 本科(Bachelor degree):武汉纺织大学计算机学院(Wuhan Textile University),软件工程,2010.9~2014.7
  • 通过英语CET4/6考试
  • 工作经历

    我这几年:

    • 阅文集团 - 资深用户画像数据挖掘工程师 - 2020.10~至今:主要负责用户画像标签的挖掘、用户增长策略、内容推荐等工作。
    • 字节跳动 - 高级数据挖掘工程师 - 2019.9~2020.10:承担过数据分析师、用户增长算法工程师、服务端开发等工作。
    • 百度 - 数据挖掘工程师 - 2017.3~2019.9:主要是大数据开发和服务端开发。

    项目经历

    个性化push策略:关键点是:选择合适的推送时间、选择用户最感兴趣的书籍、组装用户最感兴趣的文案;

    • 推送时机:推送时间的策略经过3个版本迭代:
      • 第一版:根据App活跃峰值时间点确定推送时间,和产品一起确定早上7点、上午10点、晚上19点三个固定的推送时间点;
      • 第二版:根据用户在App内过去30天活跃数据,建设粗略版本用户常活跃时间段,然后在用户常活跃时间前半个小时进行推送;
      • 第三版:根据腾讯系设备活跃实时信号,消费实时kafka设备活跃数据,实时推送;
    • 人书召回:类似推荐系统,关键点是匹配用户最感兴趣的书籍,书籍匹配策略迭代了2个版本:
      • 第一版:建设用户人-书评分表数据,评分表中记录每个用户对书籍的偏好分数;基于人-书-分数,建设书籍向量数据(book2vec);基于用户向量和书籍向量,计算用户对书籍的偏好分数,推荐分数最高的书籍;
      • 第二版:增加多通道召回数据;建设用户在app内进30天的搜索/找书行为数据,基于找书通道进行书籍召回,然后和基于评分表召回通道结果交替进行推送;
    • 文案点击预估模型:预估用户对每条候选文案的点击率文案点击率模型构建步骤:
      • 特征工程:抽取用户画像特征、用户行为特征、文案特征;
      • 模型选择:Lightgbm建模,二分类问题、CTR预估;
      • 模型评估:AUC、F1、Precision、Recall;

    新用户LTV预估:

    • 实现步骤
      • 特征工程:抽取渠道来源特征、渠道拉新素材特征、用户下载app后在端内活跃、阅读时长、付费等行为特征;
      • 模型选择:幂函数拟合、lightgbm、深度学习、MOE多目标尝试;
      • 模型评估:主要是用MAPE评估预估偏差;
      • ltv1:使用D0一天数据预估,测试集MAPE:10%;
      • ltv3:使用D0、D1两天数据,测试集MAPE:8.6%
      • ltv7:使用D0、D1、D2三天数据,测试集MAPE:8.8%
      • ltv30:使用D0~D6 七天数据,测试集MAPE:10.9%

    老用户流失预测:

    • 流失预测模型
      • 用户流失口径定义:优先和业务侧对齐业务侧口径,确定目标用户人群(新用户、老用户); 如果业务侧没有明确流失口径,可以通过用户活跃度、用户付费情况、用户行为等维度定义流失口径; 通常可以基于用户行为的回访率拐点来确定流失口径;
      • 特征工程:
      • 基础类:抽取用户近期(7天、30天、90天等)活跃、阅读、付费等维度特征;
      • 变化趋势类:加工用户行为变化率类特征,如前后两周活跃天数变化率、阅读时长变化率、付费金额/频次变化率;
      • 模型选择:基于模型预测效果、模型复杂度、模型的可解释性等维度选择使用lightgbm模型;
      • 模型调优: 对于树模型,主要调优参数包括:树的棵树、树的深度、叶子节点数、学习率、正则化参数等; 这些参数一般可以通过网格搜索、贝叶斯优化等方式进行调优;
      • 模型评估:
      • 评估指标:AUC、F1、Precision、Recall;
      • 离线评估:将离线数据分位:训练集、验证集、测试集;在测试集上计算准召、F1等指标;
      • 线上评估:直接用模型预估最新的用户数据,N天后评估模型预估效果;
      • 模型上线:离线利用用户最新的特征数据,执行预测模型,产出每个用户预测的流失概率;
    • 流失原因分析:通过分析用户流失原因,针对性的制定端内优化策略,降低用户流失率;
      • 流失原因分析
      • 流失原因解决方案

    用户运营增长:

    • 用户生命周期
      • 用户分层
      • 用户生命周期定义
      • 用户生命周期策略
    • 红包/金币激励策略:
    • 金币激励策略通常能显著的拉新新用户、促进用户活跃、延长用户留存/活跃时间;但是红包/金币发出去的是真实成本,需要保持这个事项的ROI大于1才可以保证业务形态的可持续发展;
    • 通过奖励加衰减因子、不健康用户打压、金币敏感度模型、广告ECPM模型等手段在一个双月内实现成本降低50%,用户留存下降1%以内

    用户画像标签挖掘:

    • 用户书籍评分表偏好
    • 计算用户对书籍的阅读、购买、收藏、投票等行为的TF-IDF值,作为行为对应的权重,然后乘以行为累积值,接着对分数进行线性累加,之后对分数进行缩放,计算出来用户对书籍的评分表,最后使用牛顿冷却公示对这个分数按照时间进行衰减;
    • 基于构建的人书分数,进一步训练书籍B2V向量,推荐服务使用书籍embedding向量进行相似书籍召回;
    • 用户长短期兴趣:长期一般是指3个月的兴趣;短期一般是近2天;
    • 用户兴趣转移

    账户打通IDMapping

    • 账户规则打通:通过规则将各种ID(设备ID、账号ID、cookieid等)归属到同一个自然人。
      • 技术点:mapreduce、hive sql、hadoop、连通图
      • 主要逻辑:通过一条日志里面出现的多个id对,构建ID之间关系边,多个ID之间通过边形成图,然后通过连通图将整体划分出一个个子图;
      • 主要难点:数据量级大、数据脏(格式不统一、异常数据、作弊/刷子数据等)
    • 账户模型策略打通:通过算法模型,预测多个设备维度是否是同一个自然人。
      • IP粗分桶:建设设备近期常使用的IP,然后将使用相同IP的设备分到同一个桶,在同一个桶内预测任意两个设备是否是同一个自然人;
      • 精分桶:使用lr预估;
      • 模型打通/预测:dnn;
    • ID在线打通查询服务
      • 技术点:C++、Brpc服务、高性能
      • 主要逻辑:离线构建ID与自然人正反向关联关系,将映射关系导入在线kv存储,在线服务支持同一个自然人任意ID之间打通查询;

    有声小说字幕识别(ASR)

    • 字幕识别模型
      • 前期方案调研:对比了B站自动生成的字幕、飞书妙记、叮叮、讯飞、百度PaddleSpeech 语音转文本能力
      • 模型选择:fast-whisper(large-v2)
      • 模型效果:通过asr转录、人名修正/关键词修正、小说原文关联修正、幻听修正等操作,最后转录的WER在4%以内;
    • 落地项目
      • 广告片段识别:主要针对有声书前两分钟和后两分钟的音频进行广告识别;音频切片后,输入到whisper模型中;
      • 有声书字幕: 主要经过步骤:asr模型字幕识别、音频字幕匹配原文修正、修正书名、作者名、主播名、关键字等、广告识别、标点符号增加;

    技能清单

    • 编程语言:Python、Java、C++、Go、Shell
    • 大数据处理:SQL、Hive、Spark、MapReduce、PySpark、hadoop
    • 机器学习:Tensorflow、Keras、PyTorch、Scikit-learn、聚类算法、XGBoost、Lightgbm、DeepFm

    其他