首页 技术教程 实用代码 注册破解 正则表达式 网址导航 电子书籍

采集cz88.net免费代理的小程序

这里只做单页采集,其它功能自己添加!function get_sub_content($str, $start, $end){        if ( $start == '' || $end == '' ){               return;        }        $str = explode($start, $str);        $str = explode($end, $str[1]);        return $str[0]; }$str = file_get_contents('http://www.cz88.net/proxy/index.aspx');$str = iconv('gbk','utf-8',$str);$st...
类别:网页编程 - PHP技术    查看:346    更新:2014-06-19

PHP使用curl采集

从朋友那拿到一份代码,用CURL模拟用户登录并采集需要用户登录的页面的。 先在本机测试,在php.ini中去掉了extension=php_curl.dll前面的;,查看一下phpinfo(),并没有curl。 查了下文档:将libeay32.dll 和ssleay32.dll复制到system32下,重启apache,刷新phpinfo(),看到了curl。 以下是PHP代码:【复制代码】 <?php $cookie_jar = tempnam('./tmp','cookie'); $ch = curl_init(); curl_setopt($ch, CURLOPT_URL,'登陆地址'); curl_setopt($ch, CURLOPT_POST, 1); $request = 'username=xxx&pwd=xxx'; curl_setopt($ch, CURLOPT_POSTFIELDS, $request);//传递数据 curl_set...
类别:网页编程 - PHP技术    查看:123    更新:2014-05-19

PHP简单采集器制作

采集器,通常又叫小偷程序,主要是用来抓取别人网页内容的。关于采集器的制作,其实并不难,就是远程打开要采集的网页,然后用正则表达式将需要的内容匹配出来,只要稍微有点正则表达式的基础,都能做出自己的采集器来的。     前几天做了个小说连载的程序,因为怕更新麻烦,顺带就写了个采集器,采集八路中文网的,功能比较简单,不能自定义规则,不过大概思路都在里面了,自定义规则可以自己来扩展。     用php来做采集器主要用到两个函数:file_get_contents()和preg_match_all(),前一个是远程读取网页内容的,不过只在php5以上的版本才能用,后一个是正则函数,用来提取需要的内容的。 ...
类别:网页编程 - PHP技术    查看:128    更新:2014-05-19

PHP数据采集

一.    什么是数据采集 几年前,除几个大门户网站以外,基本上都是个人网站。资讯分散,内容也并不多。几年后,商业网站越来越多,资讯需要大量集中,即便有足够的财力聘请大量的文字编辑,也未必能满足无时无刻变化的信息资源。 咨讯采集已成了让所有网站经营者青睐的技术。本文针对PHP语言简单谈一些数据采集的知识。 首先说资讯结构,咨讯结构一般为[分类标题式],例如搜狐新闻分类为:   排行 | 国内 | 国际 | 社会 | 军事 | 日月谈 | 地方 | 在线阅读 访谈 | 专题 | 图吧 | 论坛 | 文字版 | 导航 | RSS | 视频   进入国内新闻:我们会看到最新的20条新闻标题列表   ·阿...
类别:网页编程 - PHP技术    查看:118    更新:2014-05-19

PHP扩展curl和正则表达式采集新闻

采集已经不是什么新名词了,很多站长为了省事,也局限于人力的缺乏,使用程序来给自己的网站添砖加瓦,比如本人的个人网站www.xxfsw.com也采集了大量的新闻,那么如果实现呢?今天我们运用php来实现这个功能。 谈到采集,我们不得不说两个东西,第一个是如何获取远程网站的源代码,这个可以通过php的一个扩展curl来获取,另一个是如果去匹配你需要的信息,这个的解决办法是正则表达式。 Windows下开启curl的方法如下: 1、拷贝PHP目录中的libeay32.dll, ssleay32.dll, php5ts.dll, php_curl.dll文件到 system32 目录。 2、修改php.ini:配置好 extension_dir ,去掉 extension = php_curl.dll 前面的分号。 3、重起apache。 Linux下开启c...
类别:网页编程 - PHP技术    查看:131    更新:2014-05-05

ASP防采集代码-让你免受采集之苦

如今的采集系统是一个比一个NB,站长们辛苦收集制作的网站内容总是很快出现在在另一个网站上,一个网站轻易的就被复制了又复制。有办法既不影响搜索引擎的正常收入又能解决网站被采集之苦么?答案是肯定的。最常用的防采集方法:1.每个文章的命名不要有任何规律,比如你的文章是<%=id%>.htm的话,请在前面或后面生成个日期,如:20070911-1234.htm,前面的就是日期了,这样对采集新手来说是非常有效的。2.不要把所有的文章都放在一个目录下,你可以利用日期生成不同的目录名。3.不要所有的文章都用一个模板,制作尽量多的模板,添文章的时候可有选要用哪个模板,一般采集者的采集程序是有针对性的,他在采集前会对你的页面进行分析,如果你...
类别:网页编程 - ASP技术    查看:112    更新:2014-05-04

ASP采集用户登陆的信息

'================================================== '函数名:PostHttpPage '作 用:登录 '参 数:RefererUr-----登录地址 '参 数:PostUrl-----提交地址 '参 数:PostData-----用户参数 '================================================== Function PostHttpPage(RefererUrl,PostUrl,PostData) Dim xmlHttp Dim RetStr 'Set xmlHttp = CreateObject("Msxml2.XMLHTTP") Set xmlHttp = CreateObject("Msx" & "ml2.XM" & "LHT" & "TP") xmlHttp.Open "POST", PostUrl, False XmlHT...
类别:网页编程 - ASP技术    查看:110    更新:2014-05-04