标签:视觉编码
DeepSeek 团队真是鬼才啊。
DeepSeek团队开源了3B参数的DeepSeek-OCR模型及相关论文,提出通过视觉模态压缩文本信息以解决大语言模型的长上下文挑战。传统Transformer架构在处理超长文本...
全新开源的DeepSeek-OCR,可能是最近最惊喜的模型。
DeepSeek团队最新发布的DeepSeek-OCR模型突破了传统OCR的局限,将文字识别与结构化信息生成结合,实现了从图片到可编辑Markdown文档的端到端转换。该模型不仅...
滚烫Deepseek一夜刀掉英伟达4万亿,除夕开源多模态新模型:7B超越DALL-E 3和StableDiffusion
DeepSeek最近发布了新模型多模态Janus-Pro-7B,并立即开源。这一新模型在GenEval和DPG-Bench基准测试中超越了DALL-E 3和Stable Diffusion。Janus-Pro-7B基于D...
一张显卡看遍天下电影!智源联合高校开源Video-XL打破长视频理解极限,95%准确率刷爆纪录
智源研究院联合国内多所顶尖高校推出了超长视频理解大模型Video-XL,这一模型在处理小时级视频上展现了卓越的性能和泛化能力。Video-XL利用语言模型的原生能...
能精准解读X光片,开源视觉大模型Dragonfly
Together.ai最近开源了名为Dragonfly的大语言模型,该模型具有多分辨率视觉编码功能。Dragonfly设计了两个版本:Llama-3-8b-Dragonfly-v1和Llama-3-8b-Dragon...
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
GPT-4V的推出标志着多模态大模型研究的新篇章,它在多模态问答、推理和交互等领域展现了卓越的能力。然而,一些研究揭示了GPT-4V在基本能力上的不足,尤其是...





