博客采集程序分享

在上一家公司的时候,我当时做产品,但是有一个需求是对几个博客网站数据进行采集,有新浪,onlylady,yoka等等几个,开始说有银子挣,后来就坑爹了,这次放出来贡献一下哈,还有一个彩票的采集程序,不再本机上,下次分享, 这次博客的采集程序地址 博客采集程序-php

关于本博客

本博客最初是写一些关于数据抓取的东西,自己做这方面已经有6到7年的时间了,各种语言和数据库都用过了,现在想想实在是没什么东西可写的了,所以在原来名字的基础上,补充了  “数据分析”,数据分析也是自己的兴趣爱好所在,数据分析包含的方面很广泛,不仅仅是纯碎的数字/文字数据,更包括对信息的预处理,例如,互联网产品的分析,这类也是分析,自己的定位是互联网产品经理,所以在这方面会渐渐的多写一些。

新浪博客抓取程序(php)

很多社区论坛或者博客在初期上线时候会遇到没有内容的尴尬,索性他们就会去把别人的优质的内容整理放到自己的平台上,这个时候就会请技术人员写采集程序程序来完成这件事情,以前我在一家公司做产品,同事说做一个可以换点米,所以就写了好几个,后来没有了消息,想程序放着也放着,不如拿出来分享,下载地址:sina blog 采集程序   ,这是借用专业采集类snoopy写的,因为很多博客会禁止采集,所以用snoopy伪装客户端很方便。 数据采集过来要交给编辑去整理发布,采集这么多的数据如何做好分类就是一件很有意义的事情了,编辑可以用这些内容分类汇总,把没有价值的内容去掉,所以数据仅仅采集过来是不够的,接下来就会涉及到数据的分类汇总,对内容进行过滤识别。最近我也一直在做这方面的开发,会在下篇文章重点介绍这方面的内容。