Node.js 爬虫 crawler

做技术的,无论写没写过,但是一定都听说过:爬虫。

爬虫主要有两类:通用爬虫——主要用于搜索引擎;聚焦爬虫——主要用于特定信息的获取。

搜索引擎的爬虫的基本原理很简单,是个链接就爬;当然了背后的其他技术就很复杂了。聚焦爬虫则要对具体的页面,接口规则做处理,以求把各个场景下的数据都能够爬取下来。

昨晚熬夜学习了下爬虫,把国家统计局的中国行政区划码爬了一波,目前有两万多条数据,还没爬完呢,很多都是超时,应该是触发率了访问限制, IP 被封了。

目前爬到了4级行政区,两万多条数据

阅读全文

阿里云数据盘扩容记录

环境:CentOS 7.3 x64

为什么需要进行数据盘扩容呢?

由于我们的 cloud 和 git 的数据量越来越大,数据盘占用到了98%,因而需要立刻扩容。

本次扩容把数据盘的容量从20GB扩展到了30GB,本想扩大到更大的,但是更大不也就更贵的么,所以先加上10GB 再说,后续如果需要,可以再次扩容。

阅读全文

埃及的骗子和澳大利亚的女孩

北京出发,广州约见师兄,在沙特的利雅得转机,达到埃及的开罗,去赫尔格达,再去卢克索,再飞开罗最后离开埃及飞向莫斯科,再去海参崴,再回到北京,也算是一次折腾的旅程。

在埃及,有三个目的地:开罗——金字塔;赫尔格达——-红海潜水;卢克索——热气球和神庙。

现在是2018年10月5日的21:54,5个小时的时差,也就是北京时间10月6日的3:54;明早就要早起坐飞机回开罗然后离开埃及了,我觉得在酒店写点游记,算是对这一次有意义的旅程的交代。当然,一篇游记是很费事儿的,我觉得我可能写不完,可以在明天等飞机的时候接着写。

同行的小伙伴在金字塔的背影

阅读全文

大疆御2无人机评测

从2016年开始,我接触并入手了一台大疆无人机,精灵(Phantom)3。还记得第一次从天空自由的俯瞰大地的激动,还记得当时无人机的高度飞过了风筝时候的心情。

为什么喜欢无人机呢?大概换个角度看世界可以让人心胸辽阔吧。

大疆御(Mavic)2无人机是大疆2018年新出的机器,同事出了两个版本,我买的诗变焦版本。为什么不卖专业版本呢?我个人觉得是没用的,参考我的相机,一万多的全画幅索尼微单,画质是好了那么点,但是呢?那么的笨重—–其实我的微单算非常的小了,那些背着个头更大的相机的文艺青年,我就不说啥了。

网图,我买的是变焦版本

阅读全文