【原创】纯易写—哈希算法—大文本多线程【去重复文本】。支持G级别文本-稳定   [复制链接]

不需要遍历所有文件一一对比,而是使用哈希映射的方式直接对重复文本进行定位比较。从而实现快速去重的效果。

程序所有代码:多线程控制,哈希映射,文本读写,均使用易语言实现。测试1.2G文本稳定。



1.下载源码后,请删除提示的模块(因为没有调用)。

2.删除重复文本,针对的是去除重复的文本行。(以行为单位进行去重复)


请将素数 40000003 改为 40043893 去重复准确率更高。100000文本行错误率为0;

将:“key = B % 40000003”

改为:“key = B % 40043893”

点我下载
(已有 1 次下载)

引用模块

源码文件名 模块文件名
文本处理1.0.3.e
HashMap类.ec

引用支持库

源码文件名 支持库文件名 支持库标识
文本处理1.0.3.e 系统核心支持库 5.7 d09f2340818511d396f6aaf844c7e325
特殊功能支持库 3.1 A512548E76954B6E92C21055517615B0
扩展界面支持库一 2.0 27bb20fdd3e145e4bee3db39ddd6e64c
多线程支持库 2.0 5F99C1642A2F4e03850721B4F5D7C3F8
应用接口支持库 3.1 F7FC1AE45C5C4758AF03EF19F18A395D
© 版权声明
THE END
喜欢就支持一下吧!
点赞0
分享
评论 抢沙发