标签:长文本处理
全新开源的DeepSeek-OCR,可能是最近最惊喜的模型。
DeepSeek团队最新发布的DeepSeek-OCR模型突破了传统OCR的局限,将文字识别与结构化信息生成结合,实现了从图片到可编辑Markdown文档的端到端转换。该模型不仅...
                    DeepSeek发布V3.2-Exp:引入DSA、价格腰斩,为V4、R2铺路
DeepSeek在国庆前夕发布了实验性模型DeepSeek-V3.2-Exp,核心创新是引入DeepSeek Sparse Attention(DSA)架构,首次实现细粒度稀疏注意力机制。该技术通过让...
                    DeepSeek V3.2 发布:长文本能力新突破,API 价格砍半
DeepSeek正式推出实验性模型DeepSeek-V3.2-Exp,该版本在V3.1-Terminus基础上引入革命性的DeepSeek稀疏注意力(DSA)技术。DSA首次实现细粒度稀疏注意力机制...
                    月之暗面Kimi的技术一点都不落后。
月之暗面团队于2023年5月启动MoBA框架研发,旨在提升大语言模型处理长文本的效率与兼容性。该框架结合稀疏注意力与分布式训练技术,支持上下文长度扩展至10M...
                    阿里发布Qwen2.5-Turbo,支持100万Tokens上下文!
阿里巴巴推出了Qwen2.5-Turbo版本,该版本将上下文扩展至100万tokens,大幅提升了模型的理解与生成能力。这一扩展使得Qwen2.5-Turbo能够处理10部长篇小说、15...
                    腾讯放大招,超Meta!史上参数最大,开源专家混合模型
腾讯公司在开源大模型领域推出了一款名为Hunyuan-Large的超大模型,该模型基于Transformer架构,拥有3890亿参数,其中激活参数为520亿,能够处理长达256K的上...
                    面壁小钢炮 3.0 重磅发布!“无限”长文本,性能超 Kimi
面壁智能最近宣布了其旗舰端侧模型“小刚炮”系列的升级,推出了全新的MiniCPM 3.0基座模型。这一新模型以4B参数实现了超越GPT-3.5的性能,同时量化后仅占用2GB...
                    ChatGPT 发布近两年,4B 的端侧模型已经能够复刻当年的水平
面壁智能公司近期发布了其最新的端侧基座模型MiniCPM 3.0,该模型在参数量仅为4B的情况下,宣称性能超越了ChatGPT-3.5 Turbo。这一进展标志着端侧AI技术的重...
                    成本降低90%!Claude上新Gemini同款提示词缓存,一次性记住整个代码库
Claude的API新功能——API长文本缓存,允许模型“记住”一整本书或整个代码库,避免了重复输入的需要。这项功能显著降低了处理长文本的延时,并最高可节省90%的成...
                    对话杨植麟:聚焦生产力,做好 Kimi 这一个产品
在AGI Playground 2024上,极客公园创始人&总裁张鹏与月之暗面Kimi创始人&CEO杨植麟进行了深入对话,分享了Kimi的发展历程、目标定位以及对长文本和多模态技...
                    
    1
2
         
                             
                         
                             
                        





