Llama-3.1最强开源大模型出炉,扎克伯格:美国必须开源,否则会失去领先地位
北京时间7月23日23点,Meta的开源大模型Llama-3.1正式发布,此次,其参数规模已经达到了405B,Meta称这是世界上最大、功能最强大的开源基础模型。
Meta首席人工智能科学家、纽约大学教授杨立昆(Yann LeCun)和在社交媒体平台上率先发布了一系列官宣消息,本次的重点更新主要为:
1. 405B 版本的性能与顶尖闭源模型持平。
2. 提供开放/免费的模型权重和代码,许可证允许进行微调、蒸馏到其他模型,并支持在任何环境中部署。
3. 模型具有 128k 的上下文长度,支持多语言处理,代码生成性能优秀,具备复杂的推理能力和工具使用能力。
4. 提供易于集成的 Llama Stack API。
5. Llama 生态系统拥有超过25个合作伙伴,包括 AWS、NVIDIA、Databricks、Groq、Dell、Azure 和 Google Cloud。
模型地址:
https://huggingface.co/meta-llama
https://llama.meta.com/
注意,我特别把上面的第2点加粗标成绿色了,因为本次更新中Meta还特别把开源大模型的许可证进行了迭代,让开源大模型许可更加开放了,同时让人感到振奋的是,Meta 创始人、CEO 扎克伯格在Llama-3.1发布之际,亲自写了篇长文博客,标题为《Open Source AI Is the Path Forward》,向全世界阐述了为什么开源对所有人都是一件好事儿。
这种观点不禁让我们联想到前段时间国内百度李彦宏的观点:开源是智商税。
似乎形成了鲜明对比。
据Meta自己公布的信息来看,Llama-3.1目前是将大模型各项性能指标做到了极致水平。
怎么回事儿?开源大模型按照李厂长的说法不是只能用来做做学术研究和教学指导没有什么商业价值么?怎么Meta的这个小Llama突然变得这么厉害了?
谁对谁错,我相信读者心中已然有了答案。下面还是来看一看扎克伯格的这篇博客的精彩内容,这篇博客系统地阐述了Meta对开源的深度认知,向广大群众解释了几个关键点:
开源AI是未来的发展方向 开源AI对开发者的益处 开源AI对Meta的益处 开源AI对世界的益处
其中有一段我需要特别摘录出来,那就是扎克伯格作为美国公民,他从中美竞争的角度切入分析了,为什么即便美国与中国的科技存在竞争关系,美国也依然要保持开源战略,他认为,开源是美国科技的核心竞争力:
下一个问题是,美国如何应对像中国这样资源丰富的国家的竞争。美国的核心优势在于其去中心化和开放的创新环境。有些人认为我们必须封闭我们的模型,以防中国获取它们,但我的观点是这样做行不通,反而只会让美国及其盟友处于不利地位。我们的对手在间谍活动方面很擅长,窃取可以装进U盘的模型相对容易,而大多数科技公司远未采取措施增加这种行为的难度。如果世界只有闭源模型,那么很可能只有少数大型公司以及我们的地缘政治对手能够获取领先模型,而初创公司、大学和小企业将错失机会。此外,将美国的创新限制在闭源开发,会增加我们完全失去领先地位的风险。相反,我认为我们最好的策略是建立一个强大的开放生态系统,并让我们的领先公司与我们的政府和盟友紧密合作,确保他们能够最好地利用最新的进展,并在长期内实现可持续的先发优势。
当然这段话,还是丝毫不带修饰地彰显出了一些西方的政治偏见,不过像扎克伯格这样美国高科技企业代表的心声倒也透露出了这些美国顶尖科技企业对国家之间科技竞赛的战略思考,也值得我们重点关注。
《Open Source AI Is the Path Forward》
在高性能计算的早期阶段,当时的主要科技公司都投入巨资开发自己的闭源 Unix 版本。那时,很难想象还有其他方式能开发出如此高级的软件。然而,开源的 Linux 最终获得了普及——最初是因为它允许开发者随意修改代码,且成本更低,随着时间的推移,Linux 变得更加先进、更安全,并且拥有一个更广泛的生态系统,支持比任何闭源 Unix 更多的功能。如今,Linux 已成为云计算和运行大多数移动设备的操作系统的行业标准基础——我们也因此享受到了更优质的产品带来的好处。
我相信人工智能的发展将会遵循类似的路径。目前,有几家科技公司正在开发领先的闭源模型。然而,开源正在快速追赶。去年,Llama 2 仅能与前沿的上一代模型相媲美。而今年,Llama 3 已经能与最先进的模型竞争,甚至在某些领域领先。从明年开始,我们预计未来的 Llama 模型将成为业界最先进的模型。但即便在那之前,Llama 在开放性、可修改性和成本效益方面已经走在前列。
今天,我们正朝着使开源人工智能成为行业标准的方向迈出重要一步。我们发布了 Llama 3.1 405B,这是首个前沿级别的开源人工智能模型,以及新的和改进的 Llama 3.1 70B 和 8B 模型。除了在成本/性能方面显著优于闭源模型外,405B 模型的开源特性使其成为微调和蒸馏更小型模型的最佳选择。
除了发布这些模型,我们还与众多公司合作,以发展更广泛的生态系统。亚马逊、Databricks 和 NVIDIA 正在推出一系列服务,支持开发者微调和蒸馏自己的模型。像 Groq 这样的创新者已经为所有新模型提供了低延迟、低成本的推理服务。这些模型将可用于包括 AWS、Azure、Google、Oracle 在内的所有主要云平台。Scale.AI、Dell、Deloitte 等公司已准备好帮助企业采用 Llama 并使用他们自己的数据训练定制模型。随着社区的成长和更多公司开发新服务,我们可以共同推动 Llama 成为行业标准,让每个人都能享受到人工智能的好处。
Meta致力于开源人工智能的发展。我将阐述为什么我认为开源是您最佳的软件开发堆栈,为什么开源 Llama 对 Meta 有益,以及为什么开源人工智能对世界有益,因此它将是一个长期存在的平台。
当我与世界各地的开发者、CEO和政府官员交流时,我经常听到一些共同的话题:
我们需要训练、微调和蒸馏我们自己的模型。每个组织的需求不同,最好通过用他们特定数据训练或微调的不同大小的模型来满足。设备上的任务和分类任务需要小型模型,而更复杂的任务则需要大型模型。现在,您将能够使用最先进的 Llama 模型,继续用您自己的数据训练它们,然后将它们蒸馏成您理想的模型大小——我们或其他人都不需要看到您的数据。
我们需要控制我们自己的命运,不被锁定在闭源的供应商中。许多组织不希望依赖于他们无法运行和控制的模型。他们不希望闭源模型提供商能够更改他们的模型,改变他们的使用条款,甚至完全停止为他们提供服务。他们也不希望被锁定在拥有模型独家使用权的单一云平台上。开源使得拥有兼容工具链的广泛生态系统中的公司可以轻松地在之间切换。
我们需要确保数据的安全。许多组织处理敏感数据,他们需要保护这些数据,无法通过云API将数据发送到闭源模型。其他组织只是不信任闭源模型提供商处理他们的数据。开源通过允许您在任何地方运行模型来解决这些问题。人们普遍接受开源软件往往更安全,因为它开发得更加透明。
我们需要一个高效且运行成本低廉的模型。开发者可以在自己的基础设施上以大约50%的成本运行 Llama 3.1 405B 的推理,这是与使用像 GPT-4o 这样的闭源模型相比,适用于用户界面和离线推理任务。
我们希望投资于长期标准化的生态系统。许多人看到开源模型的发展速度比闭源模型快,他们希望建立在能够长期给予他们最大优势的架构上。
Meta 的商业模式是建立为人们提供最佳体验和服务。为了实现这一点,我们必须确保我们始终能够获得最佳技术,并且我们不会被竞争对手的闭源生态系统所束缚,他们可以限制我们能够构建的内容。
我的一次重要经历是在苹果平台上建立我们的服务时受到的限制。他们对待开发者的方式、他们施加的任意规则,以及他们阻止产品创新上市的所有事情,都清楚地表明,如果我们可以构建我们产品的最佳版本,而竞争对手无法限制我们能够构建的内容,Meta 和许多其他公司将为人们建立更好的服务。从哲学层面上讲,这是我坚信在人工智能和增强现实/虚拟现实领域为下一代计算建立开源生态系统的主要原因之一。
第三,Meta 与闭源模型提供商之间的一个关键区别是,销售 AI 模型的访问权限不是我们的商业模式。这意味着公开发布 Llama 并不会像对闭源提供商那样削减我们的收入、可持续性或投资研究的能力。(这是几个闭源提供商持续游说政府反对开源的一个原因。)
最后,Meta 有着长期的开源项目和成功的历史。通过发布服务器、网络和数据中心设计到 Open Compute Project,我们节省了数十亿美元。通过开源领先工具如 PyTorch、React 以及许多其他工具,我们受益于生态系统的创新。这种方法在我们长期坚持它时始终对我们有效。
让我们一起共筑未来!
在过去,Meta 为自己开发了 Llama 模型,然后发布,但并未专注于构建更广泛的生态系统。这次我们采取了不同的方法。我们在内部组建团队,以便尽可能多的开发者和合作伙伴能够使用 Llama,并且我们积极建立合作伙伴关系,以便生态系统中的更多公司能够向其客户提供独特的功能。
我相信 Llama 3.1 的发布将是行业的一个转折点,大多数开发者开始主要使用开源。我预计这种方法会从这里继续增长。我希望你能加入我们,将 AI 的好处带给全世界的每一个人。
你现在可以在 llama.meta.com 访问这些模型。
MZ.