南京邮电大学C语言中文文本分析处理
程序设计题2:中文文本分析处理
1问题描述
编写一个程序,对一篇中文文章进行分析和处理。
2功能要求
要能提供以下几个基本功能:
(1)从硬盘读入事先录入的中文文档(txt格式,500字以上,要求含有逗号、句号、冒号、双引号、单引号等标点符号,且必须为英文的标点符号,即“”“.”、“:”“"”、“”等)。
(2)对文本进行如下处理:
将文档中的所有英文标点转换为中文标点符号,注意英文标点符号占一个字节,但中文标点符号占两个字节,因此不可以直接替换。另外,注意双引号、单引号在转换为中文标点时,存在“和”的区分,以及‘和’的区分,需注意匹配。
每个段落的段尾不需要空格,应全部删除。
每个段落首行缩进,需空2个字的空间,未缩进的补全空格,多余的空格删除。段落之间、段前、断后不需要空行。
将整理后的文本保存到硬盘上。
(3)对整理后的文档进行统计,要有统计如下信息:
段落总数、句子总数、总字数(含标点与空格)、每个字(含标点)及其出现的次数。统计每个字及其出现次数时,按词频从大到小排列。词频相同时,按字典顺序排列。
将分析结果保存至另外一个文件中。
选做要求:
文本转换。将文档转换为竖排、自右向左的格式,如框图中所示(左图为转换前的样式、右图为转换后的样式)。
转换为竖排时,每列的字数由用户从键盘输入。将转换结果保存至另外一个文件中。
3其他要求
(1)变量、函数命名符合规范。
(2)注释详细:每个变量都要求有注释说明用途;函数有注释说明功能,对参数、返回值也要以注释的形式说明用途:关键的语句段要求有注释解释。
(3)程序的层次清晰,可读性强。
(4)界面美观,交互方便。
(5)如有可能,可使用MFC等开发工具,实现彩色或图形操作界面。
4开发环境
可以选择TC2.0、TC3.0、VC++6.0等开发环境,或者与老师讨论,选择自己熟悉的开发工具与平台。
程序代做
链接:源码下载链接
提取码:1111
版权归原作者 _程序设计_ 所有, 如有侵权,请联系我们删除。