Scientific Evocation

URL去重与Bloom filter

在爬虫爬网页的时候,需要避免重复抓同一个网页,来提高爬取效率,避免不必要的开销,这就需要使用一些判重的方法。 数据库 一种比较常见的方法是用数据库。这也是实现分布式爬虫去重的一个比较简单的方案。简单来说就是多个爬虫可以共享同一个数据库,把爬过的url写进去,在爬url前从数据库 ... »

Windfarer at | 技术 |

什么是尾递归

这一篇主要是因为在饭否上看到一条消息: > @量子小熊: 每个声称自己会Scala的,我都让他写尾递归的List反转,目前还没有一个写出来的,知道啥是尾递归的都是稀有动物。 吓得我赶快复习了一下尾递归(可惜并不会Scala)。怎么说也是SICP从入门到放弃的人,不懂这 ... »

Windfarer at | 技术 |

LGTM? 那些迷之缩写

就像你可能不知道 现充 其实是 现实生活很充实的人生赢家 的缩写一样,我们经常看到Github上的码农们在code review时,把乱七八糟的缩写写得到处都是——娴熟的司机们都会使用缩写来达到提高逼格的效果——我们第一次看到时还是会出现一脸懵逼的状况,这里整理一下这些缩写都是什 ... »

Windfarer at | 技术 |

梦断代码

今天终于读完了这一本《梦断代码》 [https://book.douban.com/subject/3142280/]。 书中详尽地描述了一个宏大的软件项目Chandler [https://en.wikipedia.org/wiki/Chandler_(software)] ... »

Windfarer at | 读书 |

What Life Should Mean to You

最近看了一本书,《What Life Should Mean to You》,翻译版的名字叫《自卑与超越》 [https://book.douban.com/subject/1482317/] 现在总有一些译者脑洞异于常人,我不知道这个标题为什么会翻译成这个样子,就像我也不知道 ... »

Windfarer at | 读书 |