图像生成
图像,绘画
混元OCR模型核心技术揭秘:统一框架、真端到端
腾讯混元大模型团队推出的HunyuanOCR模型是一款商业级开源视觉语言模型,专为OCR任务设计,参数规模仅1B,兼具轻量与高性能特性。该模型在文本检测识别、复杂...
座舱芯片战事:谁能撬开高通「铁王座」的裂缝?
座舱芯片市场长期由高通主导,其技术积累和生态优势形成难以撼动的护城河。目前高通已与奔驰、宝马、理想、蔚来等全球主流车企形成稳定合作,构建了从车企到...
Flux 2开源即结束:阿里通义Z-Image用6B参数,实现超高性能和生图速度,荣登开源榜首
阿里通义实验室最新开源的Z-Image模型在图像生成领域实现了重大突破,以仅6B参数的轻量级设计挑战了传统大模型的性能极限。该模型采用创新的单流扩散Transfor...
硅谷大佬现身「豪华火鸡局」,没有一个是真人!
今年感恩节期间,AI生成的虚假名人聚餐照片在社交媒体上引发广泛传播和讨论。这些图像以科技大佬、政治人物为主角,搭配节日元素,呈现出高度逼真的场景。Goo...
抛弃“级联”架构!快手OneRec用大模型重构推荐系统,服务成本降至1/10
传统推荐架构面临规模化瓶颈与范式局限,级联式设计导致算力碎片化,整体算力利用效率(MFU)长期低于1%。快手提出的生成式端到端架构OneRec通过统一召回、粗...
谷歌AI封神五年!AlphaFold狂揽诺奖,2亿蛋白结构全预测
50年的蛋白质结构难题被AI技术AlphaFold彻底改变,将传统耗时数年的实验过程压缩至几分钟。这项突破性工具已被全球330万研究者使用,其中超过100万来自中低收...
腾讯开源 HunyuanOCR,用纯粹视觉语言模型架构,仅1B参数刷新多项高阶任务SOTA
腾讯HunyuanOCR通过创新的端到端视觉语言模型架构,仅用10亿参数便解决了传统OCR系统的级联误差与通用大模型效率低下的双重难题。该系统摒弃了传统多模块串联...
从游戏工厂到空间智能仿真:混元 3D 为何是腾讯 AI 的“侧翼突围”
中国科技企业腾讯近期在3D生成领域取得显著进展,其混元3D创作引擎国际版正式发布,API同步上线腾讯云国际站。 与此同时,开源版混元3D的全球下载量突破300万...
与Banana Pro过过招,国产Libcom图像合成工作台开启Labubu漫游记
2025年,AIGC技术持续升温,AI生成内容已广泛应用于社交头像、电商海报和影视分镜等领域。通用图像编辑大模型如Nano Banana和Qwen Edit展现出强大的功能,覆...
顶流设计Agent能用Nano Banana Pro了!一句话BlackPink变东北翠花
Lovart与Nano Banana Pro的整合标志着设计领域自动化的重要突破。这一组合允许用户通过自然语言指令完成复杂的设计任务,例如将女团BlackPink成员的面部特征...



