在爬虫爬网页的时候,需要避免重复抓同一个网页,来提高爬取效率,避免不必要的开销,这就需要使用一些判重的方法。 数据库 一种比较常见的方法是用数据库。这也是实现分布式爬虫去重的一个比较简单的方案。简单来说就是多个爬虫可以共享同一个数据库,把爬过的url写进去,在爬url前从数据库 ... »
这一篇主要是因为在饭否上看到一条消息: > @量子小熊: 每个声称自己会Scala的,我都让他写尾递归的List反转,目前还没有一个写出来的,知道啥是尾递归的都是稀有动物。 吓得我赶快复习了一下尾递归(可惜并不会Scala)。怎么说也是SICP从入门到放弃的人,不懂这 ... »
就像你可能不知道 现充 其实是 现实生活很充实的人生赢家 的缩写一样,我们经常看到Github上的码农们在code review时,把乱七八糟的缩写写得到处都是——娴熟的司机们都会使用缩写来达到提高逼格的效果——我们第一次看到时还是会出现一脸懵逼的状况,这里整理一下这些缩写都是什 ... »
> 年轻人,就是不知道生命的宝贵,非要把时间花在这种没啥价值的事情上,瞎折腾。 * 找到了个很赞的Ghost主题 imgarylai/text [https://github.com/imgarylai/text] 用来魔改。 * 优化了一下ngin ... »
缘起 最近重构了成吨的代码,对于写代码这件事,有了更深的感悟。 看了一些书,《软件随想录》 [https://book.douban.com/subject/26366419/]、《重构》 [https://book.douban.com/subject/1229923/]、《P ... »