一个基于LLM来提升PDF文档OCR质量的项目:LLM-AidedOCR,效果

JavaEdge聊AIss 2024-08-11 17:53:54

一个基于LLM来提升PDF文档OCR质量的项目:LLM-Aided OCR,效果提升明显 支持本地和云LLM、支持异步处理、可配置 提升方法: 1、PDF 转换:用pdf2image将PDF转换为图像 2、OCR:用Tesseract从图像中提取文本 3、文本分块:将原始OCR 输出分成可管理的块进行处理 4、错误校正: 每个块都经过基于LLM处理,以纠正OCR 错误并提高可读性 5、Markdown 格式化(可选):将校正后的文本重新格式化为干净且一致的 Markdown 6、质量评估:使用LLM评估最终输出质量,并与原始OCR文本进行比较 #OCR #PDF识别 #LLM #编程严选网 #人工智能

0 阅读:0
JavaEdge聊AIss

JavaEdge聊AIss

感谢大家的关注