科技领域的最新进展显示,微软研究院的研究人员正在探索一种新的训练方法。他们利用儿童故事来训练规模较小的语言模型。这种方法的目的是让模型在较小的数据集上学习,以便更容易理解和管理。通过在预印本服务器arXiv.org上发表的论文,研究人员展示了即使是规模小数千倍的模型。在接受这种训练后,同样能够学会讲述连贯且符合语法的故事。
这种方法的优势在于,儿童故事的简单性和有限的词汇量使小型模型的学习过程更加高效。
微软的数学家罗南·埃尔丹在与女儿共度时光时,意识到儿童故事对于训练小型语言模型的潜力。他开始创建一个由大型语言模型生成的合成儿童故事库,并通过在故事中加入随机性,生成了一系列适合4岁儿童阅读的故事。
在评估模型的表现时,研究人员采用了自动化的方法。
他们使用了不同的训练数据集,并在GPT-4的帮助下,对模型生成的故事进行了评分。通过这种方式,研究人员能够比较不同模型的能力,并找出表现最佳的模型。
实验结果表明,即使是参数规模较小的模型,也能在讲故事方面取得令人满意的成果。
此外,研究人员还发现了模型结构对性能的影响。如层数较少但每层神经元较多的网络更擅长处理事实知识问题,而层数较多且每层神经元较少的网络则更擅长追踪故事情节。
这项研究不仅为小型模型的训练提供了新的视角,也对大型模型的发展和优化提供了有价值的见解。
微软的这项研究开辟了一个新的研究方向,可能会对语言模型的训练和理解产生深远的影响。研究人员希望这种方法能够激励其他科研人员探索不同的模型,并比较它们的能力。随着大型语言模型的不断进步,对小型模型的研究仍然显得至关重要,因为它们可能会揭示出大型模型所不具备的特性。
和讯自选股写手
风险提示:以上内容仅作为作者或者嘉宾的观点,不代表和讯的任何立场,不构成与和讯相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。和讯竭力但不能证实上述内容的真实性、准确性和原创性,对此和讯不做任何保证和承诺。
2024-06-20
2024-10-28
2024-11-03
2023-12-12
微软资讯推荐
win10系统推荐