标签:性能评估

超越谷歌Banana,字节联合香港中文大学等高校开源最强图像编辑生成系统DreamOmni2

香港中文大学、香港科技大学、香港大学与字节跳动联合研发的DreamOmni2系统,标志着AI图像编辑与生成领域的重要突破。该系统通过创新的三阶段数据生成流程和...

里程碑!逻辑智能发布全球首个完全开源语音大模型框架LLaSO,语音AI迎来新纪元

未来智能语音场景的实现依赖能深度理解和处理人类语音的大型AI模型,但语音大模型领域发展缓慢。为打破僵局,北京深度逻辑智能科技有限公司推出了首个完全开...

你永远叫不醒装睡的大模型!多轮对话全军覆没,性能暴跌39%

ChatGPT等大模型技术的快速发展,将AI应用推向了「对话」场景,直接引发了AI技术的爆炸式增长。用户可以通过多轮对话逐步完善指令,催生出「跟AI打电话」等创...

熬夜看完 GPT 4.5 的发布,没有特别多惊喜。

OpenAI最新发布的GPT-4.5模型(代号Orion)成为其迄今为止计算资源和数据规模最大的AI系统,训练过程延续了无监督预训练技术路径。尽管模型参数量级显著提升...

梁文锋亲自挂名,DeepSeek 最新论文丢出注意力新机制,推理速度直线提升 11 倍

DeepSeek研究团队近期发布了一种名为NSA的新型注意力机制,其核心设计包含动态分层稀疏策略、粗粒度token压缩与细粒度token选择三大技术要素。该机制通过优化...

AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零

Scale AI、Center for AI Safety与MIT研究者联合推出的ENIGMAEVAL基准,通过1184道源自解谜寻宝竞赛的复杂题目,系统评估大语言模型的多模态推理能力。该基准...

DeepSeek官方推荐:R1要这样设置

DeepSeek官方针对其R1模型的最佳部署方案提出了四项核心建议。首要原则是避免使用系统提示词,所有指令应直接整合至用户提示词中,这与该模型的训练方式直接...

直逼DeepSeek-R1-32B,碾压李飞飞s1!UC伯克利等开源全新SOTA推理模型

斯坦福大学、加州大学伯克利分校等机构联合发布了开源推理模型OpenThinker-32B,其性能接近当前最先进的DeepSeek-R1-32B模型。该模型仅使用114k训练数据(相...

英特尔开源RAG Foundry 框架,可增强多种RAG用例

英特尔实验室研究人员开源了RAG Foundry,这是一个专为大模型RAG框架开发和增强的工具,具有高度灵活性和扩展性。RAG Foundry支持多种RAG用例,包括数据选择...

北航&ZGCLAB 提出首个检索增强生成基准测试工具库 XRAG

ZGCLAB与北航联合提出了XRAG,这是一个全面评测和优化增强生成RAG(Retrieval-Augmented Generation)的框架,包含50多个测试指标。XRAG支持4类高级RAG模块的...
1 2 3 4