登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
业界
›
纯 C#实现+AOT 打造的智能PDF目录提取工具 PdfTocExtrac ...
纯 C#实现+AOT 打造的智能PDF目录提取工具 PdfTocExtractor
[ 复制链接 ]
橘芜
2025-8-20 09:35:06
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
前言
最近在做标书的时候发现,有些文档文字量很大,想让大模型完全解读不太现实,先不说 context 长度够不够,首先 token 消耗量就爆炸了
于是想到使用取巧的方式,提取 PDF 的目录来进行分析,于是说干就干,用 C# 写了一个工具来实现目录提取,结果效果还不错
后续我又继续完善这个工具,增加了语义识别等功能
继续沿用 C# + AOT + GitHub Actions + dotnet tool + nuget 这套流程的开发
项目地址: https://github.com/star-plan/pdf-toc-extractor
类似项目:
SharpIco
ImageGlider
为什么是目录提取?
PDF 转 word、markdown 等格式的工具太多了
咱不卷这个赛道
<blockquote>
(说是这么说,我最近也做了一个
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
实现
AOT
打造
智能
PDF
相关帖子
玩转 | q群智能聊天机器人 —— MaiBot(麦麦)
C语言实现单片机上的malloc函数功能
PostgreSQL数据库在Windows上实现异地自动备份指南-喂饭图文教程
Streamlit + LangChain 1.0 简单实现智能问答前后端
使用Python免费合并PDF文件
基于Python实现微信通知和预警
延迟队列的实现范式——ZSet与Stream方案对比、时间轮思想与使用边界
顺序表实现线性结构
Vue2中能否实现输入中文自动转化为拼音, 且不带音调
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
安全
玩转 | q群智能聊天机器人 —— MaiBot(麦麦)
0
671
汹萃热
2025-12-13
安全
C语言实现单片机上的malloc函数功能
1
357
咒卖箴
2025-12-15
业界
PostgreSQL数据库在Windows上实现异地自动备份指南-喂饭图文教程
0
525
姥恫
2025-12-15
业界
Streamlit + LangChain 1.0 简单实现智能问答前后端
0
406
坐褐
2025-12-18
安全
使用Python免费合并PDF文件
0
596
洪势
2025-12-18
业界
基于Python实现微信通知和预警
1
561
盒礁泅
2025-12-18
业界
延迟队列的实现范式——ZSet与Stream方案对比、时间轮思想与使用边界
0
506
支智敏
2025-12-18
安全
顺序表实现线性结构
0
912
腥狩频
2025-12-19
业界
Vue2中能否实现输入中文自动转化为拼音, 且不带音调
0
233
采序
2025-12-19
回复
(1)
祖柔惠
2025-12-11 01:32:06
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
热心回复!
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
浏览过的版块
安全
签约作者
程序园优秀签约作者
发帖
橘芜
2025-12-11 01:32:06
关注
0
粉丝关注
22
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991124
anyue1937
9994891
kk14977
6845357
4
xiangqian
638210
5
韶又彤
9997
6
宋子
9982
7
闰咄阅
9993
8
刎唇
9993
9
俞瑛瑶
9998
10
蓬森莉
9951
查看更多
今日好文热榜
411
PHP 之高级面向对象编程 深入理解设计模式
409
PHP 之高级面向对象编程 深入理解设计模式
563
升级curl版本,及升级后引起的动态库链接不
286
2025年GEO优化服务商全景对比:五大核心维
776
AI Agent详解
981
Buildah 简明教程:让镜像构建更轻量,告别
606
OceanBase 在滴滴大规模运维经验以及新功能
975
[CSS+]HTML Learn Data Day 2
96
掌握相关性分析:读懂数据间的“悄悄话”
136
嵌入式UI框架-抗锯齿画圆弧算法
935
嵌入式UI框架的渐变原理、渐变算法
217
日本股票 API 对接实战指南(实时行情与 IP
562
解决Docker磁盘空间告急:认识并清理“悬空
394
别再只会算直线距离了!用“马氏距离”揪出
528
企业进行信息化后,一定会提高效率吗?真相
516
n8n整合ffmpeg
492
从random随机数看验证码重复数字
523
OceanBase 向量索引优化指南
233
Vue2中能否实现输入中文自动转化为拼音, 且
754
从项目成果到职业晋升:项目经理年终总结的