一些关于AI工程化的随笔
当前主流的AI架构主要分为训练和推理两部分,训练的特点是海量数据处理,时间不敏感,推理的特点是时间敏感。
常见的机器学习框架如 tensorflow,mxnet等,对大规模稀疏支持较差,训练速度慢,支持维度抵,使用复杂等问题。因此当前大公司基本都是自研训练推理框架。
框架实现的重点在于
- 支持本地和远端分布式并行训练。同时考虑到样本来源的多样性,需要支持接入多种数据源。常见主流方式是使用ps(Parameter Server)架构来处理并行训练
训练过程
- 样本处理
- 特征抽取(Sparse, Dense, Index)
- 文件格式(行式存储和列式存储)
- 训练
- 测试
- AUC
- 裁剪