图像生成

图像,绘画

字节跳动、中科院开源多模态数据集—WebMath-40B

字节跳动和中国科学院的研究人员联合发布了超大多模态数据集InfiMM-WebMath-40B,旨在推动多模态大模型的发展。该数据集从Common-Crawl中筛选提炼而成,包含2...

15岁山东初中生做CTO,开源项目刚刚被数百万元收购了

15岁的CTO zmh开发的开源项目ChatNio被百万收购,该项目是一个集成多种流行模型和服务的一站式平台,包括OpenAI、Midjourney等。ChatNio功能全面,包括chatbo...

Meta 的智能眼镜,除了不太智能,哪儿哪儿都挺好

Meta与RayBan联名款智能眼镜RayBan Meta因其独特的功能和时尚外观在大陆市场受到关注。这款智能眼镜不仅支持语音交互,还配备了1200万像素高清摄像头,实现拍...

o1图像理解神秘现身,网友疯狂测试!Altman自曝:o2研究生级水平破105%

近期,网络上出现了关于o1图像理解功能的广泛讨论和测试。用户发现,通过选择ChatGPT 4o mini模型并上传图片,o1能够进行图像理解。这一功能原本是OpenAI未来...

o1满血版泄露!奥数题图片推理手拿把掐,奥特曼上线剧透o2

近期,OpenAI的完整版o1模型意外泄露,允许用户直接体验其功能。泄露的模型展现出了强大的图像推理能力,能够处理上传的附件并进行多模态交互。在测试中,o1...

大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑

最近,一种新的测试基准在人工智能领域引起了广泛关注,即让大型AI模型参与“你画我猜”游戏。在这个游戏中,一个模型负责画画,其他模型则根据生成的内容猜测...

微软开源视觉GUI智能体:增强GPT-4V能力,超3800颗星

微软研究人员开发了一款名为OmniParser的开源视觉GUI智能体,旨在提升大语言模型(LLM)如GPT-4V在用户界面(UI)识别和操作任务中的表现。OmniParser通过将U...

3B模型打通机器人任督二脉!冲咖啡叠衣服都能干,7种形态适配,OpenAI也投了

初创公司Physical Intelligence(简称π)开发了一款名为π0的通用型机器人控制模型,该模型拥有3B参数,能够控制不同种类的机器人完成复杂任务,如叠衣服、整...

OpenAI回应一切,o1/GPT年前都会升级!奥特曼:别嫌慢,问就是缺算力

OpenAI的CEO奥特曼及其他四位高管在reddit的AMA活动中回应了公众对公司产品和AGI路线规划的疑问。他们透露,尽管不会命名为GPT-5,但年底将有重大更新。当前...

登上生图排行榜第一的red_panda,是家创业公司,不是国产模型

Recraft V3,由AI初创公司Recraft开发的模型,在Hugging Face文本转图像排行榜上以1172的ELO评分超越了Midjourney、OpenAI等公司模型,位居第一。Recraft V3...
1 73 74 75 76 77 157