图像生成

图像,绘画

港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体

多模态大模型(MLLM)在视觉任务中展现出强大的认知理解能力,但目前大多数模型局限于单向的图像理解,难以在图像上进行精确定位。这一问题限制了模型在图像...

如何用深度学习框架 PyTorch 进行数据处理? | Q 福利

在深度学习中,数据预处理是保证模型训练效率和泛化能力的关键环节。PyTorch作为流行的深度学习框架,提供了丰富的数据处理工具,可以轻松实现数据的加载、清...

惊掉下巴:GPT-4o现场爆改代码看图导航!OpenAI曝光LLM路线图,GPT Next年底发

在巴黎举办的VivaTech科技活动上,OpenAI的开发者体验负责人Romain Huet揭示了公司一系列令人瞩目的进展。首先,他确认了今年将推出新一代旗舰模型,并非命名...

一家游戏公司,如何做出一款千万月访问量的AI图像出海产品?

在最新的AI产品网站流量榜单中,海艺互娱旗下的AI生图产品SeaArt表现出色,3月份流量增长36.8%,达到1110万,全球排名53,较上月上升19位。SeaArt自2023年6月...

世界模型也扩散!训练出的智能体竟然不错

在图像生成领域,扩散模型已成为主流方法,并开始被应用于挑战强化学习智能体。近期研究提出了扩散世界模型,其主要通过对离散潜在变量序列的操作来模拟环境...

一文读懂:GPU是如何工作的?

根据文章内容的详细介绍和分析,我总结了以下关键观点:1. GPU的工作原理是通过大量并行线程来加速计算,特别适合于执行大量重复性高的计算任务。2. 与CPU相...

视频版PS!0样本视频编辑模型,普通人秒变钢铁侠

研究人员推出了一款名为Slicedit的创新视频编辑模型,通过结合文本到图像的扩散模型和视频时空切片的预处理技术,实现了在不改变视频背景的情况下修改视频主...

开源多模态SOTA再易主,19B模型比肩GPT-4v,16G显存就能跑

在最新的开源多模态SOTA模型竞争中,CogVLM2成功夺得王冠,由大模型创业公司智谱AI推出。该模型在OCRbench、TextVQA等三项关键基准测试中大幅领先于GPT-4v和G...

Scale AI获10亿美元融资,估值138亿美元

专业从事数据标注的Scale AI公司宣布完成了10亿美元的F轮融资,公司估值达到138亿美元。此轮融资由Accel领投,并获得亚马逊、英特尔等全球知名公司的跟投。作...

微软一夜干翻苹果Mac!GPT-4o装进全家桶,微软把全世界PC都AI了

微软推出首款Copilot+ PC,这款产品采用了全新的神经处理单元(NPU)架构和重新设计的Windows 11系统,搭载了地表最强GPT-4o模型和40多个其他模型。这款PC被...
1 85 86 87 88 89 135