图像生成
图像,绘画
千问是什么?答案正在风中飘荡
2026年三月下旬至四月初,阿里巴巴集团旗下通义实验室在短时间内发布了三款旗舰级模型,分别覆盖了全能语音视频交互、高清图像生成编辑以及高阶智能编程代理...
美团盯上原生多模态!路子还很野:把图像语音都当成Token来预测
为实现连续信号的精确离散化,视觉模块采用了语义和对齐编码器配合八层残差向量量化,这种分级打包处理能让不同层级仅负责未被覆盖的特征冗余,最高支持像素...
阿里3天3王炸!全模态、精准控图和智能体编程SOTA,但没开源
阿里巴巴在近三天的时间跨度里密集发布三款战略级人工智能模型,确立了在大模型技术与行业应用中的前沿地位。此次亮相的核心产品涵盖通义千问全域版本、万相...
上市首日大涨111%!智谱MiniMax之后,德适交出大模型商业化最硬核答卷
德适科技已于三月末在港交所正式上市,这使其成为了首家亮相香港证券交易所的医学影像人工智能大型公司。公司股票开市之初热度较高,盘中涨幅显著,收盘后整...
美团LongCat-Next:把图像、声音、文字都变成Token,然后呢?
LongCat-Next 是美团发布的一项多模态大模型里程碑式成果,其核心在于首次在纯离散框架下实现了与专用连续模型相当的细粒度视觉理解能力。该模型基于 LongCat...
独家首发丨首个「Soulful Agent」ColaOS 上线:你会感受到Agent的灵魂,然后离不开它
科技记者Yoky在体验ColaOS内测后,深度反思AI代理技术的代际变革,提出“Soulful Agent”这一概念,认为其核心突破在于从“Tech-First”转向“Soul-First”,即Agen...
刚刚,龙虾学会画画了!阿里甩出Wan2.7生图王牌,捏脸精确到骨相
Wan2.7-Image是阿里最新推出的多功能图像生成模型,旨在解决AI绘图中长期存在的“千人一面”“色彩盲盒”“文本崩溃”“编辑失准”及“多图失形”五大痛点。该模型以“生...
斯坦福MIT天团出手!1美元养龙虾,图文视频全包,打工人神外挂
Agnes平台近期在Zenmux平台上正式上线其核心模型矩阵,涵盖文本Agent与多模态生成两大方向,显著提升开发者工具链的完整性与可用性。此次发布包含四款主力模...
京东卷出新高度!硬刚「复杂指令」长时长、自由态数字人直播终于丝滑了
京东在2026年GTC大会上正式迈入AI智能体应用的新阶段,其核心突破在于解决了长期困扰行业的数字人“躯壳”问题——即如何让AI智能体实现高表现力、长时长、自由态...
CLI复兴!命令行搞定一切,大厂纷纷下场
在AI Agent时代,命令行界面(CLI)正迅速崛起为智能体的主流交互语言。这一转变源于图形用户界面(GUI)对AI Agent的效率制约——GUI依赖视觉识别与模拟操作,...




