视觉编码 | 学习AIGC

刚刚，谢赛宁团队放出第二代表征自编码器

传统变分自编码器在图像生成任务中逐渐显现出效率瓶颈，其潜在空间主要记录像素级物理特征而缺乏高层语义，导致扩散模型必须从零重复学习基础视觉常识。针对...

AIGC动态

1个月前

解决算力瓶颈，给多模态瘦身！Token压缩完整图谱与选型指南

当前技术选型需权衡多重因素：纯视觉方案通用性强但精度有限，文本引导方法查询相关但计算成本高；合并策略保留语义而丢弃策略压缩比更高。未来演进将聚焦三...

AIGC动态

5个月前

对话Memories.ai：“人的记忆本质上是视觉，AI也该如此”

Memories.ai公司由前Meta研究员Shawn Shen和Ben Zhou创立，专注于开发大型视觉记忆模型（LVMM）。其核心技术创新在于将原始视频转换为设备上的结构化内存，通...

AIGC动态

7个月前

DeepSeek 团队真是鬼才啊。

DeepSeek团队开源了3B参数的DeepSeek-OCR模型及相关论文，提出通过视觉模态压缩文本信息以解决大语言模型的长上下文挑战。传统Transformer架构在处理超长文本...

AIGC动态

8个月前

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

DeepSeek团队最新发布的DeepSeek-OCR模型突破了传统OCR的局限，将文字识别与结构化信息生成结合，实现了从图片到可编辑Markdown文档的端到端转换。该模型不仅...

AIGC动态

8个月前

滚烫Deepseek一夜刀掉英伟达4万亿，除夕开源多模态新模型：7B超越DALL-E 3和StableDiffusion

DeepSeek最近发布了新模型多模态Janus-Pro-7B，并立即开源。这一新模型在GenEval和DPG-Bench基准测试中超越了DALL-E 3和Stable Diffusion。Janus-Pro-7B基于D...

AI-Agent

1年前 (2025)

一张显卡看遍天下电影！智源联合高校开源Video-XL打破长视频理解极限，95%准确率刷爆纪录

智源研究院联合国内多所顶尖高校推出了超长视频理解大模型Video-XL，这一模型在处理小时级视频上展现了卓越的性能和泛化能力。Video-XL利用语言模型的原生能...

AIGC动态

2年前 (2024)

能精准解读X光片，开源视觉大模型Dragonfly

Together.ai最近开源了名为Dragonfly的大语言模型，该模型具有多分辨率视觉编码功能。Dragonfly设计了两个版本：Llama-3-8b-Dragonfly-v1和Llama-3-8b-Dragon...

AIGC动态

2年前 (2024)

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

GPT-4V的推出标志着多模态大模型研究的新篇章，它在多模态问答、推理和交互等领域展现了卓越的能力。然而，一些研究揭示了GPT-4V在基本能力上的不足，尤其是...

AIGC动态

2年前 (2024)

标签：视觉编码

刚刚，谢赛宁团队放出第二代表征自编码器

解决算力瓶颈，给多模态瘦身！Token压缩完整图谱与选型指南

对话Memories.ai：“人的记忆本质上是视觉，AI也该如此”

DeepSeek 团队真是鬼才啊。

全新开源的DeepSeek-OCR，可能是最近最惊喜的模型。

滚烫Deepseek一夜刀掉英伟达4万亿，除夕开源多模态新模型：7B超越DALL-E 3和StableDiffusion

一张显卡看遍天下电影！智源联合高校开源Video-XL打破长视频理解极限，95%准确率刷爆纪录

能精准解读X光片，开源视觉大模型Dragonfly

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

热门网址

标签：视觉编码

AstronClaw

LibTV-AI视频创作

AI大学堂

热门网址