【牛津博士论文】序列机器学习的应用与方法论

来源：专知
本文为论文介绍，建议阅读5分钟
这篇论文贡献了新方法用于扩展序列模型及其数据，并追求将其应用于常规网络文本设置之外的领域。

在机器学习领域，一个迅速兴起的趋势是围绕一套有限的方法进行整合，这些方法旨在提高可扩展性、多功能性和简便性。序列模型的兴起是由于这些优先级而驱动的最显著的架构转变之一。

这些模型的流行增长——以及对更大模型往往在任务表现上更佳以及全新能力的认识——促使了对支持大规模训练系统的巨额投资。这些易于使用且可扩展的序列模型工具包，使得机器学习研究社区能够快速进行实验，并催生了新的序列模型实例，这些模型不仅应用于语言领域，还扩展到视觉、音频、图形结构数据和表格数据等领域。

除了对系统和基础设施的投资外，还投资于收集和整理大规模序列数据集的方法。在数据的规模和清洁度上，也观察到规模对任务表现和能力有积极影响的相似现象。

实现近年来进步的关键在于追求回答两个问题：

我们如何扩大我们的模型规模？
我们如何扩大我们的数据规模？

这篇论文贡献了新方法用于扩展序列模型及其数据，并追求将其应用于常规网络文本设置之外的领域。它包括以下八项工作，其中四项已经发表：

第三章 - 使用目标性丢弃学习稀疏网络
第四章 - 在低秩子空间中训练神经网络
第五章 - SliceOut：一种高效的丢弃替代方法
第六章 - 异步可逆组件网络
第七章 - 互锁反向传播（JMLR，2022）
第八章 - 应用于表格数据的转换器之间示例注意力（NeurIPS，2021）
第九章 - 针对可学习、值得学习且尚未学习的点的优先级训练（ICML，2022）
第十章 - 使用进化数据的深度生成模型预测疾病变异（Nature，2021）

章节的结构是这样的，我们首先介绍专注于提高训练和服务效率的方法以支持模型扩展（第3-7章），然后以专注于数据效率和新数据领域的方法结束以支持数据扩展（第8-10章）。大多数章节都是完全独立的，并引入了独立的技术，然而第六章和第七章是连续撰写的，前者启发了后者的开发，这在前者的结论和后者的引言中进行了讨论。

这一系列工作的意图是通过提供一系列方法，加速引人入胜且连贯的人工智能的发展速度，这些方法可以被利用来使模型和数据的扩展更快、更有效。