

机器之心
-
MoE与Mamba强强联合,将状态空间模型扩展到数百亿参数 – AI新智界
文章来源:机器之心 性能与 Mamba 一样,但所需训练步骤数却少 2.2 倍。 图片来源:由无界 AI生成 状态空间模型(SSM)是近来一种备受关注的 Transformer 替…
-
Stability AI发布Stable Code 3B模型,没有GPU也能本地运行 – AI新智界
Stable Code 3B 的性能优于类似大小的代码模型,并且与 CodeLLaMA 7B 的性能相当,尽管其大小只有 CodeLLaMA 7B 的 40%。 原文来源:机器之心…
-
ChatGPT在亚马逊上「开网店」,一夜之间成了网红 – AI新智界
来源:机器之心 图片来源:由无界 AI生成 最快的铺货方式? 「我们的 [产品] 可用于多种任务,例如 [任务 1]、[任务 2] 和 [任务 3],使其成为你家庭的多功能补充。」…
-
五种资源类别,如何提高大语言模型的资源效率,超详细综述来了 – AI新智界
原文来源:机器之心 图片来源:由无界 AI生成 本综述深入探讨了大型语言模型的资源高效化问题。 近年来,大型语言模型(LLM)如 OpenAI 的 GPT-3 在人工智能领域取得了…
-
如何高效部署大模型?CMU最新万字综述纵览LLM推理MLSys优化技术 – AI新智界
文章来源:机器之心 近日,CMU Catalyst 团队推出了一篇关于高效 LLM 推理的综述,覆盖了 300 余篇相关论文,从 MLSys 的研究视角介绍了算法创新和系统优化两个…
-
告别冷启动,LoRA成为大模型「氮气加速器」,提速高达300% – AI新智界
文章来源:机器之心 图片来源:由无界 AI生成 AI 模型功能越来越强大,结构也越来越复杂,它们的速度也成为了衡量先进程度的标准之一。 如果 AI 是一辆豪华跑车,那么 LoRA …
-
你们有什么底气和谷歌叫板?Perplexity AI CEO回应质疑 – AI新智界
文章来源:机器之心 图片来源:由无界 AI生成 科技巨头的每一步发展,往往意味着一些小企业将陷入阴影当中。不过,福祸相依,也会有企业在巨头发展的过程中,找到自己的发展目标,从竞争中…
-
谁能撼动Transformer统治地位?Mamba作者谈LLM未来架构 – AI新智界
原文来源:机器之心 图片来源:由无界 AI生成 自 2017 年被提出以来,Transformer 已成为 AI 大模型的主流架构,未来这种情况是一直持续,还是会有新的研究出现,…
-
2024年AI趋势看这张图,LeCun:开源大模型要超越闭源 – AI新智界
能感受到其中的趋势吗? 原文来源:机器之心 图片来源:由无界 AI生成 2023 年即将过去。一年以来,各式各样的大模型争相发布。当 OpenAI 和谷歌等科技巨头正在角逐时,另一…
-
丢掉注意力的扩散模型:Mamba带火的SSM被苹果、康奈尔盯上了 – AI新智界
来源:机器之心 替代注意力机制,SSM 真的大有可为? 为了用更少的算力让扩散模型生成高分辨率图像,注意力机制可以不要,这是康奈尔大学和苹果的一项最新研究所给出的结论。 众所周知,…