许多光学识别(OCR)过程(比如对部分PDF文档的识别和CAJ文档的识别)得到的信息是一行一段式的,某些网页中的信息也是按照一行一段的形式组织的。这些一行一段的段落中多数分段需要去掉,部分应该保留,手工删除回车符过程繁琐。
相关主题 第三章整理工具 1)删除冗余回车 2)删除冗余回车设置