我想从我的 C # 应用程序解析一个 PDF 文件,并创建一个音频文件。
我特别寻找一个好的 PDF 到文本库或一种方法来剥离 PDF 文件的文本。
您最好有一个tagged PDF文档作为您的输入文档。这意味着文档包含标记以标记文档的逻辑结构(通常 PDF 文档将仅包含视觉信息)。
然后可以将该 PDF 转换为DAISY格式,这是数字有声读物的标准,即存储书籍文本以及逻辑结构和导航特征的中间 XML 格式。
这种 Daisy XML 格式可以是converted to an audio format,也可以使用 Daisy 阅读器(如 MP3 播放器之类的物理设备)来收听这本书。
Daisy 网站上提供了一个演示文稿,解释了此工具链的原理:
Accessible PDF to DAISY/NIMAS Conversion使用Festival文本到语音。各种 pdf 到文本 api 的存在...

您需要 Microsoft 的 Speech SDK。阅读说明here
正如其他海报所概述的那样,首先您必须从.pdf 文件中提取文本。pdf 文件现在是一种开放格式,因此您可能可以通过 Google 找到解析器。
然后,您必须从文件中提取要转换为语音的文本,而忽略图形标题,页眉,目录等内容。
一旦你得到了文本,你需要把它转换成语音。这可能是最难的部分。
前一段时间,我摆弄着为游戏 mod 生成语音文件,因为我是一个烂配音演员。
Cepstral 有我能找到的最好的 TTS 转换器。(免费的人有在演讲中插入 Cepstral 广告的烦人倾向,但我可以手动编辑这个我在做什么。)
事实证明,有一种语音合成标记语言,可用于为 TTS 转换器提供有关哪个音节放置重音等的线索。
http://www.w3.org/TR/speech-synthesis/你如何去自动添加 SSML 的文本是有点超越我。
无论如何,TTS 转换器将产生一个音频文件,最后一步是以 mp3 格式以所需的比特率压缩音频。
本站系公益性非盈利分享网址,本文来自用户投稿,不代表码文网立场,如若转载,请注明出处
评论列表(26条)