2017年的一些总结

个人学习经验

Posted by lujunzizi on February 27, 2018

“Yeah It’s on. ”

前言

一直就想用github写博来着,从去年12月份一直拖到了现在,确实比国内博客园、csdn看起来更加geek一点。写一些2017年个人学习的经验吧,慢慢写,思绪有些乱。


正文

2017年上半年开始学着自己写一些爬虫,正好关注了知乎的爬虫专栏,对此很有兴趣,看了很多以后感觉知乎专栏里面的爬虫文章很low,基本都是些在写helloworld的,而且都是用python写的,类库都是现成的, ,标题都很高大上但是内容千篇一律。 自己真正动手写起来,关于动态页面的爬取、多线程爬取、如何绕过反爬虫机制、数据的存储、app中网络数据的爬取等等问题,只能上网慢慢摸索,发觉google确实要比百度好用的多,stackoverflow是个好东西! ,自己也逐步爬取了一些数据,比如知乎轮子哥的收藏、Keep网站的精选图片、斗鱼直播平台每日主播排行等,当然最主要的是豆瓣电影网的影视数据了,因为找不到合适的代理地址,为了防止被豆瓣网反爬,只能单线程爬取(多线程爬取不使用代理池会被豆瓣屏蔽,要求输入验证码), 总共爬了一周,爬了8w多条数据。 当时领导正好想在项目中运用机器学习,于是学习了spark框架,在对豆瓣电影网的数据进行处理以后,运用spark的mllib提供的随机森林回归算法做了一个电影评分预测模型,并写了一篇论文,也算是自己业余 时间的一点收获了。这里还有个小小的插曲,当时fork了spark的代码以后,mllib有自己的example代码,我在跑其中一个例子的时候怎么跑也跑不对,后来发现是它代码有误,还提交了一次代码(还跟那个管理员 讨论了半天他才承认确实是代码错误…),误打误撞贡献出了自己对开源项目代码的第一次commit。 下半年的时候项目调整,应领导要求开始由java转型c++开发,开始的时候还是很不适应的,只能边学边写,特别是读完了Effective C++以后(很后悔上学的时候没有去上侯捷老师的课),才逐渐拾起这门语言, 也是很有感触,渐渐的明白了一些java语言设计上的初衷(垃圾回收、不允许多重继承、效率上不如C++等等)。 这次转型收获也是蛮大的,去年让我感触最深的一句话是:发现事物的本质。运用到软件开发中也是一样的道理,开发语言只是一种工具,万变不离其中。 此中有真意,欲辩已忘言。