1、项目环境安装
项目拉取:
git clone https://github.***/deepseek-ai/DeepSeek-OCR.git
模型文件拉取:
# 安装相关依赖
pip install modelscope
# 拉取模型文件
modelscope download --model deepseek-ai/DeepSeek-OCR README.md --local_dir ./dir
环境要求:
本项目要求cuda版本是11.8,否则在编译安装 flash-attn时会出现异常报错
conda create -n deepseek-ocr python=3.11 -y
conda activate deepseek-ocr
注意:在创建所虚拟环境时官方给出的是python=3.12.9,我用后来尝试创建python=3.11的虚拟环境也可以正常使用
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
pip install flash-attn==2.7.3 --no-build-isolation
注意:在安装flash-attn==2.7.3时,可能会出现长时间编译都没有结束的问题(我是耗时30分钟仍没完成),解决的方案是去github的flash-attention官方下载对应版本的.whl官方包:
https://github.***/Dao-AILab/flash-attention
flash_attn-2.7.3+cu11torch2.6cxx11abiFALSE-cp311-cp311-linux_x86_64.whl
需要访问外网,我已经下载并上传:
https://download.csdn.***/download/guoqingru0311/92195761
vllm的安装:
本文采用的vllm推理框架加载模型,版本是v0.8.5版本,选择对应的cuda11.8版本,需要事先下载官网提供的whl安装包:
https://github.***/vllm-project/vllm/releases/tag/v0.8.5
要是没法访问外网,我已下载好,链接如下:
https://download.csdn.***/download/guoqingru0311/92182760
安装vllm:
pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl
# DeepSeek-OCR
pip install -r requirements.txt
安装过程中会出现如下报错,不用管,不会影响正常运行
2 、运行项目
进入到DeepSeek-OCR-master/DeepSeek-OCR-vll目录
图片ocr
在进行图片OCR之前,需要首先修改下config.py配置文件
然后修改run_dpsk_ocr_image.py文件
运行指令:
python run_dpsk_ocr_image.py
PDF文件OCR
在进行pdf文件OCR之前,需要首先修改下config.py配置文件
然后修改run_dpsk_ocr_pdf.py文件
运行指令:
python run_dpsk_ocr_pdf.py
3、测试结果
我上传了一份pdf文件,OCR识别结果截取部分如下:
原始:
文本检测结果:
得到的Markdown结果:
4、Web-ui的方式部署DeepSeek-OCR
采用fastapi部署DeepSeek-OCR项目,设置好端口号后启动项目。页面如下所示:
识别完成后会显示如下条目,下载所需文件即可:
5、web-ui项目下载
我的整个项目已经上传,需要的话,可以下载:
https://download.csdn.***/download/guoqingru0311/92288087