VB擂台赛获奖作品——高频词汇提取技术示例源程序可,第一步:预处理
先读入原始数据;
把原始数据中的每个单词出现位置及长度记录到数组中;
为每个单词生成哈希表;
生成单词表,即原始数据中所有出现过的单词,并记录在原始数据中第一次出现的位置
第二步:短语频率统计
定义一个短语表来存放所有可能出现的短语,记录它在原始数据中出现的位置;
定义一个次数统计表,来存放短语的出现次数
根据短语的单词个数取得单词表中各单词的序号,组合成标记,并由标记生成哈希值;
根据标记哈希值来判断是否相同的短语;
第三步:输出结果
将统计表进行排序,输出对应的短语。
先读入原始数据;
把原始数据中的每个单词出现位置及长度记录到数组中;
为每个单词生成哈希表;
生成单词表,即原始数据中所有出现过的单词,并记录在原始数据中第一次出现的位置
第二步:短语频率统计
定义一个短语表来存放所有可能出现的短语,记录它在原始数据中出现的位置;
定义一个次数统计表,来存放短语的出现次数
根据短语的单词个数取得单词表中各单词的序号,组合成标记,并由标记生成哈希值;
根据标记哈希值来判断是否相同的短语;
第三步:输出结果
将统计表进行排序,输出对应的短语。