客至汲泉烹茶, 抚琴听者知音

前言最近在写的策略框架需要对数据进行频繁读取,传统的sqlite肯定不考虑,因为数据量比较大,读取速度太慢,所以考虑使用其他格式存储数据。常见的df存储格式有csv,hdf5,feather,Parquet,本文将对这几种格式进行测试,看看哪一种格式最适合我。测试代码参考了以下代码:https://github.com/stefan-jansen/machine-learning-for-t...

前言我手头存了不少小说txt文档,一直都想整理一番,但是手工整理太累了所以也没动手。这半年来感觉我的python水平有了很大提升,于是打算写个程序帮我整理。首先是去重,因为txt文档来源于不同地方,标题作者名什么的有可能不一致,内容上排版稍微差一点hash值也就变了,所以无论是靠文件名还是hash值检测重复文档都不可靠,干脆直接检测文本的相似度吧。网上搜了一下别人写的代码,整合了一下实现了一...

前言之前工作的时候,需要写一个日内交易信号监控软件,预计的功能是实时更新数据,出现信号时有提示功能(比如颜色变化和声音提醒)。如果可能的话最好也有可视化功能。我第一时间就想到了plotly同家出品的Dash,它是一个python Web可视化框架库,之前就有兴趣学,但是因为懒所以一直没有入手。需求来了才开始看文档,边看边翻译、实践,花了几天就写出了一个简单的网站。我个人还是挺满意的,所以也打...

前言之所以想做这个 API,主要是我博客上有百度收录检测,但是速度有点慢,后来想想可能是因为服务器在国外,所以就有了把 API 搬到国内的想法。但是国内的 API 已经用 python 搭建了一个随机图服务,不好再加一个 PHP 吧?算了,干脆我重写一个 API 得了,于是就有了这个项目。代码已经放到 GitHub 上了,欢迎大家交流讨论。[scode type="yellow"]查询次数过...

最近一时兴起想好好搞一下我的 API 项目,用的自然是 python 的 fastapi 库。没做几个 API 就想到个问题:我怎么知道我的 API 有没有人用?解决方案当然就是统计一下 API 调用次数啦。网上搜了一下貌似没有 fastapi 简单可行的统计方案,没办法只能自己写了。那么首先我需要知道访客的 ip,这样相当于有个 key,也可以大致了解调用情况。去 fastapi 文档上查...

今天讲讲我在实习中学到的一点 python 知识,核心内容是多进程,也即我们常说的并行计算。map首先提个问题,给出一个列表,对列表中的每个元素都平方,代码怎么写?最简单直观的方法自然就是 for 循环。alist = [1,2,3,4,5,6,7,8] def power_value(num): return num**2 result_list = [] for num in...

这篇文章来自:https://uwpce-pythoncert.github.io/SystemDevelopment/profiling.html,译者进行了调整与补充。前言:性能分析与优化什么是性能?"性能 "可以是以下任何一项的衡量标准。资源使用(CPU、内存)调用函数的频率与时间耗费优化步骤编写可维护/可读性好的代码测试收集性能统计数据如果够快,就 ok 了。不然就根据数据优化最耗费...

前言很久之前学过一点点爬虫,前几天需要爬一点资料所以又捡起来了。算是小需求所以也没用太复杂的框架,就 Requests+正则 就 ok 了。遗憾的是,需要爬的目标站是那种登录才可以见全文的那种网站,所以我得想办法获取 cookie。网上搜了一下,比较简单的方法有两种,一种是直接查看登录后网站存储的 cookie,然后解析使用。另一种是构造一个登录函数,登录后再获取 cookie。前者最为方便...