python

Python 实时检测自身内存占用

最近在做文本统计,用 Python 实现,遇到了一个比较有意思的难题——如何保存统计结果。

直接写入内存实在是放不下,十几个小时后内存耗尽,程序被迫关闭。如果直接写入数据库吧,每次写入又太慢了,本来就十几个小时了,这样下去就要往星期上数了,也不是个办法。

最后,我想到了一个两者兼顾的方案[……]

点击跳转以继续阅读

正确使用 PIP 安装 Python 包 避免 TypeError: ‘module’ object is not callable

在此之前,我一直是这样在 macOS 上安装和使用 pip 的:

后来,这个方法失效了,变成了这样:

终于有一天,pip 提示我它需要更新,于是:
[cray[……]

点击跳转以继续阅读

让 pip 走代理

使用 python 的时候,经常需要下载一些第三方的框架,好在 python 也有类似 apt 的包管理工具,pip。

不过,pip 虽然能够管理包,却没有切换镜像源的功能,而我们下载的包,大多数都在国外大型的代码托管服务器上,这就导致了往往几百KB的包要下载一个小时。

 [……]

点击跳转以继续阅读

用 python 写一个域名白名单爬虫

前段时间我写过一篇文章,说是时候使用白名单来翻墙了,不过那个白名单已经过期好久,用起来不是那么顺畅了,后来我就夸下海口说:我要自己实现一个爬虫,来爬取中国的网站域名,好更新白名单。

好吧,总之这个爬虫是写好了然后上线爬取了一万多的,不过最后我找到了前人做的更好的方案,于是这个爬虫项目还是废弃了[……]

点击跳转以继续阅读