Chunkr:开源文档智能API,打造高效RAG/LLM数据预处理基础设施
• 支持PDF、PPT、Word及图片文件,自动完成布局分析、OCR识别与语义分块,生成结构化HTML、Markdown及JSON
• 提供基础至高级视觉语言模型(VLM)处理,多层次文档理解能力,涵盖从开发测试到企业级生产环境
• 灵活部署:自托管开源版本、商业云API及企业定制方案,支持GPU加速和多架构环境(含Mac ARM)
• LLM配置支持多模型并发、限流及优先级切换,兼容OpenAI、Google AI Studio、OpenRouter等主流API
• 完善的开发者体验:Python SDK快速上手,社区活跃,支持Docker Compose一键启动,文档详尽
• 双重开源许可(AGPL-3.0 + 商业许可证),保障透明合规,适合科研、产品与大规模安全部署
Chunkr通过将复杂文档拆解成语义块,极大提升了RAG与LLM的数据质量和处理效率,是构建智能文档应用的基石。合理利用多模型配置与灵活部署策略,可实现更强的系统稳定性和扩展性。
🔗 了解详情/源码: github.com/lumina-ai-inc/chunkr
文档智能 OCR RAG LLM 开源 人工智能 机器学习