客至汲泉烹茶, 抚琴听者知音

分词

前言我手头存了不少小说txt文档,一直都想整理一番,但是手工整理太累了所以也没动手。这半年来感觉我的python水平有了很大提升,于是打算写个程序帮我整理。首先是去重,因为txt文档来源于不同地方,标题作者名什么的有可能不一致,内容上排版稍微差一点hash值也就变了,所以无论是靠文件名还是hash值检测重复文档都不可靠,干脆直接检测文本的相似度吧。网上搜了一下别人写的代码,整合了一下实现了一...

前几天做ppt,要展示的内容有很多关键词,就想到了云字图这种玩意,没想到网上一搜,在线生成的网站要么需要付费,要么不支持指定形状生成,一气之下干脆自己写了一个。幸好python有这个库wordcloud,所以很快就实现了这个功能。后续优化了一下(渣优化),觉得基本能用了。做好后的成果如下图: github地址依赖所使用的版本为python3.6.5(Anaconda)wordcloud 云字...