SLM逆袭LLM？微软下注更小、更便宜的“大模型”大揭秘

更新时间：2024-01-24 19:15:57作者：big100

在过去一年左右的时间里，大模型（LLM）吸引了全球的注意力，从GPT3.5、GPT-4到LLaMA等开源模型。然而，种种迹象表明，小模型（SLM）如今越来越受到重视。

1月23日，媒体援引两位知情人士透露。微软已经组建了一个新团队来开发对话式AI，与目前使用的OpenAI软件相比，微软开发的这种AI需要的计算资源更少。知情人士称，微软已将几位顶尖AI开发人员，从其研究小组调至新的GenAI团队。

上个月，微软亮出了小模型大招。发布27亿参数规模的小语言模型Phi-2，在部分基准测试中超过谷歌的Gemini Nano 2，可以在笔记本电脑、手机等移动设备上运行。

分析指出，微软与OpenAI的紧密合作。使得GPT模型的表现在大模型市场一骑绝尘，再加上微软参数规模更小的Phi系列，能进一步抢占开源模型长尾市场。

微软大、小模型两手抓

上述知情人士表示，GenAI团队与微软的另一个团队Turing是分开的，Turing开发了大模型来改进Bing和其他微软产品。而GenAI团队致力于开发小模型。

微软的小模型Phi参数规模足够小，但在处理某些任务上可以媲美GPT-4。为了让Phi表现足够优秀，研究人员去年曾使用GPT-4生成了数百万条高质量文本，并根据这些数据对Phi进行了训练。

Phi曾在AI研究社区中引起了轰动，此后，微软又推出该模型的最新版本Phi-2，作为开源模型提供给用它来构建自己的AI应用程序的Azure客户。高盛等公司近几个月就一直在测试Phi。

与此同时，微软已经在研究如何利用小模型，来处理Bing AI聊天机器人和Windows Copilot用户较为基本的咨询问题，以降低计算成本。

本月早些时候，在达沃斯论坛上，微软首席执行官Satya Nadella夸赞了公司在小模型方面的工作，称其为“掌控我们自己命运”的一种方式。

Nadella表示："我们对拥有最好的前沿模型非常重视，当前最先进的大模型是GPT-4。我们还有Phi，它是微软最好的小模型。因此，我们将拥有多样化的模型。”

“小模型”开辟新战场

除了微软之外，也是在上个月，法国初创公司MistralAI公布的开源模型Mixtral 8x7B引起轰动。

华尔街见闻此前文章提到，模型Mixtral 8x7B规模参数相对较小，而能力却能达到GPT-3.5的水平。

Mixtral 8x7B之所以叫Mixtral 8x7B，是因为它属于稀疏模型，将各种为处理特定任务而训练的较小模型组合在一起，从而提高了运行效率。

性能方面，Mixtral表现优于Llama 2 70B，推理速度提高了整整6倍；在大多数标准基准测试上与GPT-3.5打平，甚至略胜一筹。

成本方面，由于Mixtral的参数较小，所以其成本也更低。与Llama 2相比，Mixtral 8x7B表现出自己高能效的优势。

毫无疑问，规模较小的模型可以降低了大规模运行人工智能应用的成本，同时极大地拓宽了生成式AI技术的应用范围。

值得一提的是，MistralAI刚刚完成4.15亿美元融资，最新估值已经冲破20亿美元，在短短6个月中增长了7倍多。

本文来自华尔街见闻，欢迎下载APP查看更多