语言模型 | 第 8 页

73年前，香农已经给大模型发展埋下一颗种子

普林斯顿大学教授承现峻提出，1951年克劳德·香农在贝尔实验室提出的预测下一个单词的问题，成为了当前大语言模型（LLM）的基础。香农在论文中给出了两种估计...

AIGC动态

1年前 (2024)

新王Claude 3.5实测：阿里数学竞赛题不给选项直接做对

Claude 3.5 Sonnet是Anthropic公司推出的一款新型大型语言模型，以其卓越的性能和快速、低成本的特点在全球范围内受到关注。在关键指标的比较中，Claude 3.5 ...

AIGC动态

1年前 (2024)

LLM最全「怪癖」首曝光！马里兰OpenAI等30+学者祭出75页提示报告

由马里兰大学、OpenAI、斯坦福大学、微软等12所机构的30多名研究者共同完成的一项大规模系统研究，首次深入探讨了大型语言模型（LLM）的提示技术，并发布了一...

AIGC动态

1年前 (2024)

ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了

最近，一篇入选ACL 2024的论文《Can Language Models Serve as Text-Based World Simulators?》在社交媒体上引发了广泛讨论。该论文探讨了当前语言模型是否可...

AIGC动态

1年前 (2024)

Llama3-8B秒杀700亿巨兽？北大博士生等全新「BoT」框架推理暴涨70倍，24点图形推理一步成神

北大、UC伯克利和斯坦福的研究人员针对大型语言模型（LLM）在推理任务上的不足，提出了一种名为“思维缓冲区”（Buffer of Thoughts，简称BoT）的新方法。该方...

AIGC动态

2年前 (2024)

跟大厂拼价格到底！智谱AI 宣布模型全面降价，刘慈欣、AI 老罗线上“整活儿”

在人工智能领域，大型语言模型的创新正处于飞速发展期。智谱AI公司CEO张鹏在最近的Open Day上强调，大模型技术的进步不仅没有放缓，反而有加速的趋势。与此同...

AIGC动态

2年前 (2024)

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

研究人员近日针对大型语言模型处理长文本的能力进行了深入探讨，并提出了名为RULER的新基准测试。该测试包含四大类共13项任务，旨在评估模型的“有效上下文”长...

AIGC动态

2年前 (2024)

ChatGPT真能记住你的话吗？DeepMind与开源大佬揭示LLM记忆之谜

在探讨大型语言模型（LLM）的记忆能力时，Simon Willison指出，尽管LLM看似具备记忆功能，实则它们在推理时并不能记住任何信息，本质上是无状态函数。用户感...

AIGC动态

2年前 (2024)

学界正在研究1-bit的大模型，目前已经有突破性进展

随着大型语言模型（LLM）性能的增强，其对计算资源和能源的需求也日益增加。为降低成本、提高速度并实现环保，研究者致力于将模型压缩至能在手机等小型设备上...

AIGC动态

2年前 (2024)

解决Transformer根本缺陷，CoPE论文爆火：所有大模型都能获得巨大改进

这篇文章介绍了Meta公司研究人员提出的一种新的位置编码方法，称为CoPE（Contextual Position Encoding），用于Transformer模型，旨在解决标准位置编码无法处...

AIGC动态

2年前 (2024)

标签：语言模型

73年前，香农已经给大模型发展埋下一颗种子

新王Claude 3.5实测：阿里数学竞赛题不给选项直接做对

LLM最全「怪癖」首曝光！马里兰OpenAI等30+学者祭出75页提示报告

ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了

Llama3-8B秒杀700亿巨兽？北大博士生等全新「BoT」框架推理暴涨70倍，24点图形推理一步成神

跟大厂拼价格到底！智谱AI 宣布模型全面降价，刘慈欣、AI 老罗线上“整活儿”

英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

ChatGPT真能记住你的话吗？DeepMind与开源大佬揭示LLM记忆之谜

学界正在研究1-bit的大模型，目前已经有突破性进展

解决Transformer根本缺陷，CoPE论文爆火：所有大模型都能获得巨大改进

热门网址

标签：语言模型

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址