标签:深度学习
SemiAnalysis万字解析DeepSeek:训练成本、技术创新点、以及对封闭模型的影响
Semianalysis的分析报告对DeepSeek进行了全面分析,揭示了其在AI领域的多项关键成就和战略布局。报告指出,DeepSeek拥有约5万块Hopper GPU,总投资超过5亿美...
完整的671B MoE DeepSeek R1怎么塞进本地化部署?详尽教程大放送!
李锡涵在其AIxiv专栏中分享了如何将DeepSeek R1 671B模型部署到本地环境的详细教程。DeepSeek R1因其出色的性能而广受欢迎,但本地部署可以提供更个性化的服...
模型参数作知识通用载体,MergeNet离真正的异构知识迁移更进一步
浙江大学和上海交通大学的研究团队提出了一种名为MergeNet的知识迁移框架,旨在解决边缘计算设备如智能物联网设备在部署深度神经网络时面临的计算资源和存储...
OpenAI 想了快 10 年的超级智能体终于来了!有惊喜,但比智谱晚还“翻车”系数高?
2025年,OpenAI推出了Operator,一款能够访问Web并执行任务的智能体,目前仅对美国Pro套餐用户开放,未来将扩展至其他用户群体并集成至ChatGPT。Operator能够...
Keras之父创业押注「程序合成」,副业竟能解锁终极AGI!o3预示新拐点
Keras的创始人François Chollet与Mike Knoop共同创立了AI实验室Ndea,旨在通过深度学习与程序合成的结合来实现人工通用智能(AGI)。他们认为,这种结合是解...
余弦相似度可能没用?对于某些线性模型,相似度甚至不唯一
余弦相似度在机器学习和数据科学领域被广泛用于衡量高维对象之间的语义相似度,尤其在推荐系统和自然语言处理中。然而,Netflix和康奈尔大学的研究指出,余弦...
谷歌新架构一战成名,打破Transformer记忆瓶颈,姚班校友钟沛林新作
谷歌的“Titan”架构作为一种新的深度学习模型,旨在挑战现有的Transformer架构。该架构的核心是一个神经长期记忆模块(LMM),它能够记住长期信息,并有效地扩...
独家丨前微软亚研院视觉专家胡瀚加入腾讯,负责混元多模态大模型
胡瀚,前微软亚洲研究院视觉计算组首席研究员,已加入腾讯,接替刘威负责多模态大模型研发。胡瀚清华大学本科及博士学位,师从周杰教授,博士论文获2016年中...
联手OpenAI,吴恩达推出一门o1推理新课程,还免费
2024年,OpenAI推出了o系列模型,这些模型通过更多的计算进行深入“思考”,能够回答更复杂、更细致的问题。o系列模型在多步骤规划、图像推理和长期编码等新兴...
Ilya布局末日倒计时?奥特曼与谷歌大佬揭秘2025年ASI降临时间表!
谷歌开发者Logan Klipatrick预测,我们直接进入ASI(人工超级智能)的可能性正在逐月增加。Ilya通过扩展测试时计算的成功,证明了直接达到ASI的路径是可行的...