筒霓暄 发表于 昨天 08:35

解密Prompt系列66. 视觉Token爆炸→DeepSeek-OCR光学压缩

借着 DeepSeek-OCR这篇论文,本章我们来回顾下多模态大模型(VLM)的核心技术演进。
很多人认为:图像Token的信息密度和效率远不如文本。但 DeepSeek-OCR的核心价值,就是用实践证明了这是一个伪命题。它通过一套巧妙的串行视觉压缩架构,实现1个视觉Token近乎无损地承载10个文本Token的惊人效率。
下面我们沿着 \(O(N^2)\) 危机 \(\rightarrow\) 结构感知 \(\rightarrow\) 语义对齐 的路径,来梳理这背后的技术基石。
Part I:多模态基石的构建与 \(O(N^2)\) 危机

我们先来回顾下多模态模型的技术基石,我们将按照模型结构->多模态对齐->指令生成这条路径进行深入。
ViT: 图像的 BERT 化与 \(O(N^2)\) 的起点



[*]Google: AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE


来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
页: [1]
查看完整版本: 解密Prompt系列66. 视觉Token爆炸→DeepSeek-OCR光学压缩