首页 > 分类 > Deepseek OCR

网站

Deepseek OCR

国外

下一代文档智能，具备上下文光学压缩和多语言支持。

访问 544

登陆后收藏 95

标签:

AI 文字识别 AI文档提取开源AI模型 AI PDF处理工具

Deepseek OCR

访问

关于 Deepseek OCR

下一代文档智能，具备上下文光学压缩和多语言支持。

平台

网站

浏览 213 , 收录与 2025-11-12 07:21:36

产品介绍

什么是Deepseek OCR？

DeepSeek OCR 是一个基于两阶段变换器的文档人工智能系统，利用上下文光学压缩技术提供一流的文档智能。它将高分辨率文档压缩为精简的视觉标记，然后借助 30 亿参数的专家混合模型进行解码，实现对 100 多种语言几乎无损的文本、布局和图表理解。支持在复杂布局下进行 GPU 高效处理，并在 3000 万个真实 PDF 页面和合成数据上训练，能够保留布局结构、表格、化学（SMILES 字符串）以及几何任务。

如何使用 Deepseek OCR？

DeepSeek OCR 可以通过三种主要方式使用：1. 通过克隆 GitHub 仓库、本地下载 6.7 GB 的检查点并配置 PyTorch 在本地使用 GPU 部署。2. 通过其兼容 OpenAI 的 API 接口调用 DeepSeek OCR，提交图像并接收结构化文本。3. 将 DeepSeek OCR 集成到现有工作流中，将 OCR 输出转换为 JSON，连接 SMILES 字符串到化学信息学管道，或者自动为图表生成标题。

Deepseek OCR 的核心功能

上下文光学压缩引擎

多语言支持（100+种语言）

结构化输出（HTML、Markdown、SMILES、JSON）

GPU 高效处理能力（每天 20 万页在 A100 上）

高精度（97% 的精确匹配率）

MIT 许可的权重，适合本地部署

Deepseek OCR 的使用案例

压缩扫描的书籍和报告以进行后续的搜索、摘要和知识图谱。

从技术图纸和公式中提取几何推理、工程注释和化学 SMILES。

在 100 多种语言中建立全球语料库以创建多语言数据集。

嵌入发票、合同或表单处理平台，以获得布局感知的 JSON 和 HTML 输出。

Deepseek OCR 的价格

API 输入令牌（缓存命中）

$0.028

每 1M 输入令牌在缓存命中时的费用

API 输入令牌（缓存未命中）

$0.28

每 1M 输入令牌在缓存未命中时的费用

API 输出令牌

$0.42

每 1M 输出令牌的费用

Deepseek OCR

关于 Deepseek OCR

平台

产品介绍

什么是Deepseek OCR？

如何使用 Deepseek OCR？

Deepseek OCR 的核心功能

上下文光学压缩引擎

多语言支持（100+种语言）

结构化输出（HTML、Markdown、SMILES、JSON）

GPU 高效处理能力（每天 20 万页在 A100 上）

高精度（97% 的精确匹配率）

MIT 许可的权重，适合本地部署

Deepseek OCR 的使用案例

压缩扫描的书籍和报告以进行后续的搜索、摘要和知识图谱。

从技术图纸和公式中提取几何推理、工程注释和化学 SMILES。

在 100 多种语言中建立全球语料库以创建多语言数据集。

嵌入发票、合同或表单处理平台，以获得布局感知的 JSON 和 HTML 输出。

Deepseek OCR 的价格

API 输入令牌（缓存命中）

API 输入令牌（缓存未命中）

API 输出令牌

相关产品

LlamaIndex

LedgerBox

Airparser

Bannerbear

Open Voice OS

ChatPDF.so

Pruvly

Image Translator

Solvr

PDF.co

Wan 2 AI

Whisper

DeepSeek R1 Online

Decode.tax

Unearthed