图像生成

图像,绘画

视觉思维链全新架构,加州大学让多模态大模型有了灵性,整体性能提升5.3%

加州大学伯克利分校团队提出了一种名为视觉思维链(CoVT)的全新架构,旨在解决多模态大模型在处理视觉信息时被迫将其翻译成文本的局限性。人类通过视觉信号...

源神阿里!图像生成Ovis-Image再开源,7B小参数媲美GPT-4o和20B开源模型

在人工智能领域,图像生成技术正经历着快速迭代。阿里推出的Ovis-Image模型以7B参数实现了媲美20B+开源模型和GPT-4o的文本渲染能力,证明了通过优化的架构设...

硅片国产化浪潮,提速!

在全球科技竞争日益激烈的背景下,半导体产业已成为各国争夺技术制高点的关键领域。硅片作为芯片制造的“第一原材料”,其质量与性能直接决定了芯片的良率与可...

对话 GMI Cloud : 英伟达仅7家的认证伙伴之一,不想做算力包租公

2025年AI算力市场的重心正从训练场景转向高频、碎片化的推理场景,这一转变中,GMI Cloud凭借独特的战略定位快速崛起。作为成立仅3年的公司,GMI Cloud已获得...

腾讯做了一件有意思的事情

腾讯广告算法大赛以其360万奖金池和直接提供腾讯Offer的机会吸引了全球8400多名参与者,组成了2800多支队伍。大赛的核心赛题“全模态生成式推荐”反映了当前广...

免费国产Banana真香!我想把PS给卸载了

国产AI工具Vidu Q2在图像生成和编辑领域展现出显著的技术进步,尤其在保持多元素一致性方面表现突出。该工具最新升级的参考生图功能能够精准复刻人物、物体、...

ChatGPT三岁生日,谷歌却为它准备了「葬礼」

ChatGPT的诞生与三年技术演进彻底重塑了全球科技格局。2022年12月OpenAI低调发布的研究预览版,如今已发展为数字世界的核心基础设施。从最初纯文本交互到多模...

Transformer作者爆料GPT-5.1内幕!OpenAI内部命名规则变乱了

我们正在经历一次静悄悄但本质性的AI范式转换,其意义不亚于Transformer本身的诞生。过去一年,关于AI发展的观点呈现两极分化:一方面存在'模型到顶论',另一...

OpenAI大溃败!GPT-5「换皮」GPT-4o,两年半预训练0突破

OpenAI在GPT-4o发布后,其预训练进展陷入停滞,导致GPT-5的性能未达业界预期。据权威分析机构SemiAnalysis披露,OpenAI顶尖团队自2024年5月以来未能完成新一...

混元OCR模型核心技术揭秘:统一框架、真端到端

腾讯混元大模型团队推出的HunyuanOCR模型是一款商业级开源视觉语言模型,专为OCR任务设计,参数规模仅1B,兼具轻量与高性能特性。该模型在文本检测识别、复杂...
1 2 3 4 5 6 157