蟒蛇

Python 實時檢測自身內存佔用

最近在做文本統計,用 Python 實現,遇到了一個比較有意思的難題——如何保存統計結果。

直接寫入內存實在是放不下,十幾個小時後內存耗盡,程序被迫關閉。如果直接寫入數據庫吧,每次寫入又太慢了,本來就十幾個小時了,這樣下去就要往星期上數了,也不是個辦法。

最後,我想到了一個兩者兼顧的方案[……]

點擊跳轉以繼續閱讀

正確使用 PIP 安裝 Python 包 避免 TypeError: “模塊’ 對象是不可調用

在此之前,我一直是這樣在 macOS 上安裝和使用 pip 的:

後來,這個方法失效了,變成了這樣:

終於有一天,pip 提示我它需要更新,於是:
[克雷[……]

點擊跳轉以繼續閱讀

讓 pip 走代理

使用 python 的時候,經常需要下載一些第三方的框架,好在 python 也有類似 apt 的包管理工具,果仁。

不過,pip 雖然能夠管理包,卻沒有切換鏡像源的功能,而我們下載的包,大多數都在國外大型的代碼託管服務器上,這就導致了往往幾百KB的包要下載一個小時。

 [……]

點擊跳轉以繼續閱讀

用 python 寫一個功能變數名稱白名單爬蟲

前段時間我寫過一篇文章,說是時候使用白名單來翻牆了,不過那個白名單已經過期好久,用起來不是那麼順暢了,後來我就誇下海口說:我要自己實現一個爬蟲,來爬取中國的網站域名,好更新白名單。

好吧,總之這個爬蟲是寫好了然後上線爬取了一萬多的,不過最後我找到了前人做的更好的方案,於是這個爬蟲項目還是廢棄了[……]

點擊跳轉以繼續閱讀