注册 / 登录

LG 人工智能模型训练优化实践:Continuous Training Engine (CTE)

分会场:  人工智能/AI驱动/AI实践

 

案例来源 :

案例讲师

刘嘉屹

LG 资深研究员

刘嘉屹(博士)LG电子高级人工智能部门资深研究员。曾就职于博世研发中心以及人工智能中心。目前主要负责LG高级人工智能中心机器学习框架的评估和研发工作。在机器学习的模型训练和部署领域有丰富的研究和实践。

扫描二维码分享案例

 

案例简述

 

Tuning machine learning models, especially finding the right hyperparameters, can be difficult and time-consuming. In addition to the computational effort required, this process also requires some ancillary efforts including engineering tasks (e.g., job scheduling) as well as more mundane tasks (e.g., keeping track of the various parameters and associated results). We present CTE, a general Continuous Training Engine framework to help data scientists speed up model tuning and bookkeeping. With CTE, users can use all available computing resources in parallel for model training. The user-friendly system design simplifies creating, controlling, and tracking of a typical machine learning project. The design also allows researchers to integrate new hyperparameter optimization algorithms. To demonstrate its flexibility, we show how CTE integrates a few major hyperparameter optimization techniques (from random search to neural architecture search).

 

案例目标

 

1)随着数据的积累,各类机器学习模型在公司内部广泛应用。但是针对不同场景,模型依赖的超参(Hyperparameter)也不尽相同。于是数据科学家们需要大量时间进行模型调节,已达到最佳的模型性能


2)近年来,大数据以及深度神经网络的发展使得模型训练变得耗时,费力。不依赖于高性能并行计算机系统,往往一个模型在单机上需要至少一周的时间才能完成训练。而有效利用复杂的高性能系统则对数据科学家们有着很高的挑战


3)互联网巨头如Google,Facebook内部的解决方案往往与其自身的系统紧密结合,而云服务商如Amazon SageMaker,Google AutoML 提供的服务也难以满足公司内部不同项目,不同模型的具体需求


4)因此,我们需要一个可定制扩展,高效,而又简单易用的机器学习训练框架来提高数据科学家的效率,并匹配不同的问题的需求以及不同工作环境的硬件能力。。


 

成功(或教训)要点

 

以终端用户的友好性作为设计宗旨,将机器学习工作流进行抽象化,分离出模型训练,模型优化两个核心模块,使得数据科学家们可以轻松上手,与此同时,研究与开发人员可以进一步拓展CTE 的功能来进一步提高其性能。


1)可拓展的模型训练模块

A.单机,多核

B.多机分布式计算

C.云服务结合


2)可更迭的模型优化模块

A.统一的超参调节界面

B.充分利用开源项目

C.神经架构搜索(NAS) 和自动学习(AutoML)


3)辅助功能

A.可重复性

B.监控与可视化


 

案例ROI分析

 

数据科学家仅需少量更改,就可以通过持续训练引擎不断优化机器学习模型的超参,以实现更高的模型性能。更进一步,通过高性能计算机系统,CTE可以自动通过分布式计算来降低模型训练的周期时长,进一步提高数据分析团队的效率。


 

案例启示

 

1)拓展性对于数据科学家非常重要。随着人工智能的发展,迅速迭代是公司的技术演进的常规策略。因此CTE 的拓展性能够有效提高机器学习团队的生产力。


2)易用性是推动项目发展的重要一环。各类超参优化的开源项目很多,但是很少有数据科学家愿意尝试,其根源在于:一公司内部部署困难,二需要更改大量现有代码来进行整合。CTE将这两步的困难降到最低,从而有效的提高了其接受程度。


 

案例在团队中的意义

 

持续训练引擎有效的提高了数据团队建模优化的难度,进而提高了将数据转化为利润的效率。我们欢迎业内人士来共同探讨其使用的前景,并向未来全自动机器学习演进。

 

领取大会PPT

我要参会

大会全套演讲PPT

立即领取

大会即将开幕,点击抢票!

我要参会