语言模型 | 第 10 页

Transformer本可以深谋远虑，但就是不做

这篇报道探讨了语言模型是否会规划未来token的问题。研究发现，虽然Transformer有能力预测未来token，但在实践中并不会这样做。人类在使用语言时会预测即将出...

AIGC动态

2年前 (2024)

开源模型越来越落后？Llama 3 说李总你真幽默

Llama 3 正式发布，被 Meta 宣称为迄今为止最强大的开源大模型。这一版本推出了两种规模的预训练语言模型，分别拥有 80 亿和 700 亿参数，以支持更广泛的应用...

AIGC动态

2年前 (2024)

Meta无限长文本大模型来了：参数仅7B，已开源

Meta近日提出了一种名为MEGALODON的新型神经架构，用于高效地处理无限长的文本序列。这一技术的提出是为了解决传统Transformer模型在处理长序列时存在的二次...

AIGC动态

2年前 (2024)

DeepMind前员工创立的AI公司发布新模型，能理解音频与视频，推理性能超过Gemini

Reka是一家总部位于旧金山的AI初创公司，由来自DeepMind、Google和Meta的研究人员联合创立，最近推出了一款名为Reka Core的全新多模态语言模型。这款模型被誉...

AIGC动态

2年前 (2024)

Claude 3说服力堪比人类！Anthropic最新研究揭秘LLM惊人能力

Anthropic最近发布的研究成果表明，他们开发的人工智能模型Claude 3 Opus在说服力方面与人类相当。这一发现对于评估语言模型的说服力具有重要意义，因为说服...

AIGC动态

2年前 (2024)

Llama架构比不上GPT2？神奇token提升10倍记忆？

这篇文章主要介绍了朱泽园和李远志最新研究的内容，标题为《语言模型物理学 Part 3.3：知识的 Scaling Laws》。他们通过海量实验总结了12条定律，为语言模型...

AIGC动态

2年前 (2024)

弱智吧：大模型变聪明，有我一份贡献

机器之心报道了一项关于中文大型语言模型（LLM）的研究，该研究通过利用百度贴吧中的“弱智吧”内容作为数据集，对人工智能模型进行训练和评估。弱智吧以其高质...

AIGC动态

2年前 (2024)

LangChain作者谈Agent AI 智能体的未来

Harrison Chase，LangChain创始人，在红杉资本的AI Ascent活动上发表了关于AI智能体未来发展的演讲。他强调了智能体发展的三大关键领域：规划、用户体验和记...

AI-Agent

2年前 (2024)

长文本之罪：Claude团队新越狱技术，Llama 2到GPT-4无一幸免

Anthropic公司最近发现了一种新型的“越狱”技术，这种技术能够让攻击者绕过大型语言模型（LLM）的安全限制。这种越狱技术被称为“Many-shot Jailbreaking”，它...

AIGC动态

2年前 (2024)

通用图大模型HiGPT：一己之力建模任何图结构关系！来自港大数据智能实验室&百度

文章介绍了香港大学数据智能实验室最新推出的图结构大模型HiGPT，该模型是由GraphGPT的原班人马打造而成。GraphGPT是将图数据与大模型结合的代表方法之一，但...

AIGC动态

2年前 (2024)

标签：语言模型

Transformer本可以深谋远虑，但就是不做

开源模型越来越落后？Llama 3 说李总你真幽默

Meta无限长文本大模型来了：参数仅7B，已开源

DeepMind前员工创立的AI公司发布新模型，能理解音频与视频，推理性能超过Gemini

Claude 3说服力堪比人类！Anthropic最新研究揭秘LLM惊人能力

Llama架构比不上GPT2？神奇token提升10倍记忆？

弱智吧：大模型变聪明，有我一份贡献

LangChain作者谈Agent AI 智能体的未来

长文本之罪：Claude团队新越狱技术，Llama 2到GPT-4无一幸免

通用图大模型HiGPT：一己之力建模任何图结构关系！来自港大数据智能实验室&百度

热门网址

标签：语言模型

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址