标签:多模态突破

美团LongCat-Next:把图像、声音、文字都变成Token,然后呢?

LongCat-Next 是美团发布的一项多模态大模型里程碑式成果,其核心在于首次在纯离散框架下实现了与专用连续模型相当的细粒度视觉理解能力。该模型基于 LongCat...

全球OCR新王来自中国开源!GitHub狂揽73300+Star

在AI大模型时代,百度文心大模型衍生的PaddleOCR项目正式超越谷歌Tesseract OCR,以73300+ Star登顶GitHub全球OCR项目榜首,实现中国开源在该基础赛道上首次...