大模型

LLM,VLM,模型

熬夜看完 GPT 4.5 的发布,没有特别多惊喜。

OpenAI最新发布的GPT-4.5模型(代号Orion)成为其迄今为止计算资源和数据规模最大的AI系统,训练过程延续了无监督预训练技术路径。尽管模型参数量级显著提升...

杀疯了!6年来最强模型GPT-4.5登场:更贵、更高情商、更少幻觉|钛媒体AGI

美国OpenAI公司今日正式推出GPT-4.5模型,代号Orion,标志着其六年迭代历程中规模最大、性能最优的AI基座模型诞生。该模型计算效率较GPT-4提升10倍以上,但AP...

开发者坦白局:大家都用 DeepSeek R1 做了啥?

DeepSeek R1模型发布一个月以来,其区别于传统非推理模型的技术特性引发开发者群体广泛关注。该模型在思考链构建、响应速度优化及幻觉抑制方面进行了针对性调...

微软首个多模态Phi-4问世,56亿参数秒杀GPT-4o!LoRA华人大佬带队

微软发布Phi-4系列两款新型模型——Phi-4-multimodal和Phi-4-mini,标志着小型语言模型(SLM)领域的重大突破。Phi-4-multimodal作为微软首个多模态模型,集成...

火山引擎AI一体机DeepSeek版来了!开箱即用,小时级部署,还有大模型应用经验加持

火山引擎近期发布的AI一体机-DeepSeek版旨在帮助企业解决大模型应用落地的核心难题。该产品通过软硬件协同优化和全链路能力覆盖,支持DeepSeek R1/V3全系列模...

一文看懂DeepSeek开源第四弹,梁文锋亲自下场开发

DeepSeek在OpenSourceWeek期间开源了DualPipe和EPLB两项关键技术,为解决大模型训练中存在的资源浪费与效率瓶颈提供了创新方案。DualPipe通过双向并行处理机...

DeepSeek开源打碎了谁的饭碗

DeepSeek的开源策略正在重塑中国AI产业生态,中腰部AI应用公司、芯片企业和硬件厂商成为首批受益者。53AI创始人杨芳贤透露,其半数存量客户已将基座模型切换...

不要自回归!扩散模型作者创业,首个商业级扩散LLM来了,编程秒出结果

Inception Labs推出了首个商业级扩散大型语言模型Mercury,标志着Transformer与扩散模型的融合进入实际应用阶段。该模型在英伟达H100上实现每秒超过1000个tok...

没想到,我轻松干预了 DeepSeek 的搜索结果

当用户向DeepSeek提出「好用的AI耳机」查询时,系统通过分析50个网页并整合3个核心文献形成答案,其中两个文献均为作者本人撰写的极客公园文章。这篇探讨AI翻...

DeepSeek-R1自写CUDA内核跑分屠榜!斯坦福学霸狂飙GPU编程自动化挑战人类

斯坦福和普林斯顿研究团队开发的KernelBench框架揭示了大型语言模型在生成优化CUDA内核方面的潜力与局限。DeepSeek-R1在自动生成GPU内核任务中超越OpenAI o1...
1 88 89 90 91 92 589