标签:OCR技术
DeepSeek 团队真是鬼才啊。
DeepSeek团队开源了3B参数的DeepSeek-OCR模型及相关论文,提出通过视觉模态压缩文本信息以解决大语言模型的长上下文挑战。传统Transformer架构在处理超长文本...
DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装了
DeepSeek团队推出的DeepSeek-OCR模型通过视觉token压缩技术实现了文本处理效率的突破性提升。该模型将1000字文本压缩为100个视觉token,在保持97%精度的同时...
全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA
百度最新发布的PaddleOCR-VL模型在全球权威文档视觉语言理解基准OmniDocBench V1.5中以92.6分的综合成绩登顶榜首,成为首个在文本识别、公式识别、表格理解与...
全球OCR最强模型仅0.9B!百度文心衍生模型刚刚横扫4项SOTA
百度最新发布的自研多模态文档解析模型PaddleOCR-VL以0.9B轻量级参数量,在OmniDocBench V1.5榜单上以92.6分斩获全球综合性能第一。该模型在文本识别、公式识...
IBM开源新模型,可完美、快速转换PDF文档格式
在AIGC领域,PDF文档的转换一直是一个技术挑战,因为PDF文件在格式、标准化和结构上存在显著差异。IBM的研究人员开发了Docling模型,这是一个基于PDF解析器、...
GPT-4系列模型,在文档理解中的多维度评测
Snowflake的研究人员对OpenAI的GPT-4系列模型进行了深入研究,评估了其在文本生成、图像理解、文档摘要等方面的能力。通过在DocVQA、InfographicsVQA、SlideV...






