首页 > 分类 > Deepseek OCR
网站
PaperClip

Deepseek OCR

国外

下一代文档智能,具备上下文光学压缩和多语言支持。

PaperClip interface

Deepseek OCR

访问

关于 Deepseek OCR

下一代文档智能,具备上下文光学压缩和多语言支持。

平台

网站

浏览 194 , 收录与 2025-11-12 07:21:36

产品介绍

什么是Deepseek OCR?


DeepSeek OCR 是一个基于两阶段变换器的文档人工智能系统,利用上下文光学压缩技术提供一流的文档智能。它将高分辨率文档压缩为精简的视觉标记,然后借助 30 亿参数的专家混合模型进行解码,实现对 100 多种语言几乎无损的文本、布局和图表理解。支持在复杂布局下进行 GPU 高效处理,并在 3000 万个真实 PDF 页面和合成数据上训练,能够保留布局结构、表格、化学(SMILES 字符串)以及几何任务。

如何使用 Deepseek OCR?


DeepSeek OCR 可以通过三种主要方式使用:1. 通过克隆 GitHub 仓库、本地下载 6.7 GB 的检查点并配置 PyTorch 在本地使用 GPU 部署。2. 通过其兼容 OpenAI 的 API 接口调用 DeepSeek OCR,提交图像并接收结构化文本。3. 将 DeepSeek OCR 集成到现有工作流中,将 OCR 输出转换为 JSON,连接 SMILES 字符串到化学信息学管道,或者自动为图表生成标题。

Deepseek OCR 的核心功能

上下文光学压缩引擎

多语言支持(100+种语言)

结构化输出(HTML、Markdown、SMILES、JSON)

GPU 高效处理能力(每天 20 万页在 A100 上)

高精度(97% 的精确匹配率)

MIT 许可的权重,适合本地部署

Deepseek OCR 的使用案例

压缩扫描的书籍和报告以进行后续的搜索、摘要和知识图谱。

从技术图纸和公式中提取几何推理、工程注释和化学 SMILES。

在 100 多种语言中建立全球语料库以创建多语言数据集。

嵌入发票、合同或表单处理平台,以获得布局感知的 JSON 和 HTML 输出。

Deepseek OCR 的价格

API 输入令牌(缓存命中)

$0.028

每 1M 输入令牌在缓存命中时的费用

API 输入令牌(缓存未命中)

$0.28

每 1M 输入令牌在缓存未命中时的费用

API 输出令牌

$0.42

每 1M 输出令牌的费用