從 cns11643 中文標準全字庫生成倉頡和速成官方碼表

一直以來,我對倉頡速成這對難兄難弟是很有意見的……網上流傳的碼表版本繁多,但名字都叫“倉頡”,和五筆對比起來,好歹五筆還分個 86 和 98,再新一點還有 新世紀 等等,但倉頡沒有,不論什麼版本的倉頡,都叫“倉頡”。

這就很尷尬,每個人用的倉頡碼表都不一樣,但不一樣在哪裡,他自己也不知道。

總[……]

點擊跳轉以繼續閱讀

如何給服務器端做最基本的密碼安全

做 app 做網站,難免要和服務器、後台、數據打交道,那麼作為一名後台開發,當涉及到註冊登錄,你最應當想到的應該是用戶的安全,尤其是密碼安全。

現在安全界幾乎天天都有某網站、某公司被脫褲,也就是整站的數據庫被偷走被下載。那麼你的用戶數據全部落入了歹徒手中,應該怎麼防範即使如此,歹徒也不能拿到用[……]

點擊跳轉以繼續閱讀

獲取 中文 維基百科語料

最近在做輸入法的詞庫,實現新的整句輸入模型,(回頭我會把之前的基於詞的整句輸入模型講講),新的整句輸入模型是基於 HMM (也就是隱馬爾可夫模型)來做的,當然了,由於我個人設備資金等有限,只做了二階矩陣。不過即使如此,模型還是需要訓練的。

當然,不是說用小說名著來訓練就不好,只不過很難找到各行[……]

點擊跳轉以繼續閱讀

讓 pip 走代理

使用 python 的時候,經常需要下載一些第三方的框架,好在 python 也有類似 apt 的包管理工具,果仁。

不過,pip 雖然能夠管理包,卻沒有切換鏡像源的功能,而我們下載的包,大多數都在國外大型的代碼託管服務器上,這就導致了往往幾百KB的包要下載一個小時。

 [……]

點擊跳轉以繼續閱讀

用 python 寫一個功能變數名稱白名單爬蟲

前段時間我寫過一篇文章,說是時候使用白名單來翻牆了,不過那個白名單已經過期好久,用起來不是那麼順暢了,後來我就誇下海口說:我要自己實現一個爬蟲,來爬取中國的網站域名,好更新白名單。

好吧,總之這個爬蟲是寫好了然後上線爬取了一萬多的,不過最後我找到了前人做的更好的方案,於是這個爬蟲項目還是廢棄了[……]

點擊跳轉以繼續閱讀

Python 字符串 與 字節數組 轉換

在使用 Python 做網絡編程的時候難免會遇到字符串與字節流的轉換,這裡我們記錄以下幾種常用的方法:

首先是字節數組轉字符串,也就是str:

然後是字符串轉為字節數組:
[crayon-5dca964eb65f87155[……]

點擊跳轉以繼續閱讀