图像生成
图像,绘画
Ilya预言成真,下一个token预测直达AGI!智源首发原生多模态世界模型Emu3,不用扩散
智源研究院最近发布了一款名为Emu3的原生多模态世界模型,该模型通过预测下一个token来理解和生成文本、图像和视频三种模态数据,而无需依赖扩散模型或组合方...
上海交大、腾讯发布高效扩散模型微调方法,提升图像生成效率
近年来,扩散模型在图像、视频和3D生成等任务中发挥了重要作用,但在将预训练模型微调应用于实际业务场景时面临挑战。现有微调方法如AFT、RFT和SFT存在局限性...
智源 Emu3 证明多模态模型新范式:只需基于下一个 token 预测
智源研究院于2024年10月21日发布了原生多模态世界模型Emu3,这一模型仅通过预测下一个token,就能实现对文本、图像、视频三种模态数据的理解和生成,无需依赖...
成都女生如何改写了AI进程
李飞飞,斯坦福大学终身教授、HAI院长、World Labs创始人,是AI领域内极具影响力的华人科学家。她的学术生涯始于物理学,后转向人工智能,尤其专注于计算机视...
DenseNet共一作者刘壮官宣新去向,将任普林斯顿大学助理教授
刘壮,DenseNet和ConvNeXt的主要开发者之一,将于2025年9月加入普林斯顿大学计算机科学系担任助理教授。在学术界任职前,他将继续在Meta AI Fair担任研究科学...
刚刚,OpenAI开放ChatGPT Windows版本,可像Office那样使用了
OpenAI最近宣布,为所有ChatGPT Plus、Enterprise、Team和Edu用户提供Windows桌面应用的早期版本。用户可以在微软应用商店下载该应用,并通过Alt + Space快捷...
王炸级3nm安卓AI芯片发布:生成视频不用联网,智能体帮你点外卖订酒店
联发科推出的天玑9400芯片,基于3nm工艺和Arm V9架构,是安卓首款3nm AI芯片,其AI能力显著提升,成为苏黎世ETHZ移动SoC AI性能榜单的首位。该芯片首次支持端...
AI翻译界杀手诞生!阿里国际翻译大模型吊打谷歌和GPT-4
阿里巴巴国际站最近发布了一款名为Marco-MT的商用翻译大模型,旨在提高电商领域的翻译质量。该模型通过结合上下文、场景和对象,提供更精准的翻译,特别是在...
10年后手机有多科幻?清华孙茂松:人手一个超级大脑,诊病翻译搞研发
人工智能(AI)已经深入人们的日常生活,从个人助理、医疗诊断到产品研发等多个领域,AI技术正在引发一场革命。清华大学的孙茂松教授预测,未来AI将成为人们...
Adobe神级AI视频媲美Sora!拖拽一键秒生大片,最强PS震撼设计圈
Adobe在2024年的Adobe MAX大会上宣布了Firefly视频模型和图像模型的全面升级,标志着公司在AI生成领域的深入发展。Firefly视频模型通过其生成式扩展功能,能...




