图像生成
图像,绘画
沉浸式翻译团队新品:BabelDOC PDF,无损翻译 PDF,免费用户可用
沉浸式翻译团队最近开源了其PDF翻译工具——BabelDOC PDF,该工具在很大程度上解决了PDF机翻中常见的排版乱码、串行等问题,能够直接输出对版的精准PDF。BabelD...
o3解读:OpenAI发力tool use,Manus们会被模型取代吗?
OpenAI近期发布了o3和o4-mini两个新模型,标志着其在推理和多模态能力上的重大突破。o3模型凭借其全面的推理能力、丰富的工具使用方式以及全新的多模态CoT(C...
图像编辑开源新SOTA,来自多模态卷王阶跃!大模型行业正步入「多模态时间」
全球AI大模型的发展正迅速进入“多模态时代”,这一趋势不仅体现在技术进展上,也反映在应用和落地的需求中。多模态技术已成为AI领域的关键能力,尤其是在智能...
「拍照问夸克」,从「Know-What」到「Get it Done」的跃迁
夸克近期推出的「拍照问夸克」功能,标志着AI多模态入口的进一步升级。通过将相机作为与AI交互的核心工具,夸克AI相机不仅简化了用户的操作流程,还提供了更...
毛骨悚然!o3精准破译照片位置,只靠几行Python代码?人类在AI面前已裸奔
OpenAI的o3模型展示了通过照片识别地理位置的强大能力,引发了广泛的关注和讨论。Django Web框架的创始人Simon Wilson通过实验发现,o3能够通过Python代码和...
GPT-4o偷偷升级,变身聊天鬼才!新版STEM智力飙升,生图却惨遭削弱?
OpenAI近期对GPT-4模型进行了更新,此次更新在多个方面带来了显著的变化。首先,模型在智力和个性方面有了进一步的提升,尤其是在STEM领域的问题解决能力上表...
DeepMind CEO 放话:未来十年赌上视觉智能,挑战 OpenAI 语言统治地位
Demis Hassabis,作为AI领域的先驱,其职业生涯始于对国际象棋的痴迷,并最终引领了通用人工智能(AGI)的研究。Hassabis从小展现出非凡的国际象棋天赋,13岁...
英伟达开源「描述一切」模型,拿下7个基准SOTA
为了实现这些功能,DAM 采用了两个关键创新:焦点提示(focal prompt)和局部视觉骨干网络(localized vision backbone)。焦点提示通过提供完整图像和目标区...
“DeepSeek不是万能的”,李彦宏今年押注AI 应用:模型价再“打骨折”,重点布局多智能体、多模态
在百度 Create 开发者大会上,百度创始人李彦宏发布了两款新的大模型——文心大模型 4.5 Turbo 和文心大模型 X1 Turbo,并宣布了一系列支持开发者全面拥抱 MCP...
最新实测!文心4.5T/X1T双卷王登场效果惊人,骨折价卷到DeepSeek
百度最新发布的两款大模型——文心大模型4.5 Turbo和文心大模型X1 Turbo,标志着其在多模态、深度推理和低成本方面的显著突破。这两款模型不仅在性能上超越了市...