机器学习基础设施的顶级AI研究进展


随着深度学习模型在现实世界中的业务应用中变得越来越流行以及训练数据集变得越来越大,机器学习(ML)基础结构正成为许多公司中的关键问题 。
为了帮助您了解ML基础架构的最新研究进展,我们总结了最近在该领域引入的一些最重要的研究论文 。阅读这些
我们选择的论文涵盖了数据标签和数据验证框架,用于ML模型的分布式训练的不同方法,用于跟踪生产中ML模型性能的新颖方法等等 。
标记培训数据越来越成为部署机器学习系统的最大瓶颈 。我们展示了Snorkel,这是首创??的系统,它使用户能够训练最先进的模型而无需人工标记任何训练数据 。相反,用户编写了表示任意试探法的标签函数,这些试探法可能具有未知的准确度和相关性 。通过整合我们最近提出的机器学习范例数据编程的第一个端到端实现,Snorkel对输出进行了降噪处理而无须了解真实情况 。我们根据过去一年与公司,代理商和研究实验室的合作经验,提供了一个灵活的接口层来编写标签功能 。在用户研究中,主题专家构建模型的速度提高了2.8倍,平均预测性能提高了45倍 。相对于7个小时的手工贴标,为5% 。我们研究了在这种新设置中的建模权衡,并提出了用于自动权衡决策的优化器,该优化器可使每次管道执行的速度提高1.8倍 。通过与退伍事务部和食品与药物管理局的两次合作,在代表其他部署的四个开源文本和图像数据集上,Snorkel的预测性能比以前的启发式方法平均提高了132%,并且不超过大型手工策展训练集的预测性能的3.60% 。
【机器学习基础设施的顶级AI研究进展】

    推荐阅读