开源的搜索引擎abelkhan
开源软件吧
全部回复
仅看楼主
level 1
浅水清流 楼主
开源的搜索引擎:http://www.abelkhan.com/
欢迎大家围观!
使用python编写了后端网络爬和前端网站
项目地址:http://www.abelkhan.com/
向我们提出意见:http://www.abelkhan.com/guestbook/
对项目进行捐助:http://www.abelkhan.com/collection/
代码托管地址如下:https://github.com/qianqians/websearch欢迎大家参与
2016年03月25日 14点03分 1
level 1
浅水清流 楼主
目前而言,已经用python编写了一个网络爬虫抓取页面,和一个简单的前端
网络爬虫,已经有很多高手写过,我基本上奉行了拿来主义,
得益于python完善的lib,这个网络爬虫实现起来非常的简单:
使用urllib2从对应的url地址抓取html
一个需要注意的地方是,有部分网站会限制爬虫访问,所以我加入了headers用于模拟浏览器访问。
这个方法差强人意,但是我也没有找到一个更完善的办法。
抓取到页面后,基于HTMLParser做了html的解析:
基本上,要说的就是HTMLParser使用方法见文档,HTMLParser预先了定义了一组虚接口handle_starttag,handle_data和handle_endtag,使用者通过重载这三个接口,来实现对html中的tag进行处理,进而完整的解析抓取到的html。
然后从搜索结果来看,搜索的质量还很不尽如人意,欢迎大家的参与和提出意见
2016年03月25日 14点03分 2
level 1
浅水清流 楼主
python中的字符串编码
获取字符串的编码类型:
encodingdate = chardet.detect(str)
chardet用于实现字符串的编码类型检测
chardet的下载地址:https://pypi.python.org/pypi/chardet/
查看获取到的编码类型:
print encodingdate['encoding']
将字符串转为unicode:
ustr = unicode(str, encodingdate['encoding'])
将unicode转为字符串:
ustr.encode('utf-8', 'ignore')
需要注意的是encode方法,str类型也有这个接口,
但是这个接口的作用是将unicode编码成指定编码的字符串,在str上是无效的。
一个相对复杂的应用:
字符串转unicode在搜索引擎abelkhan 爬虫部分的应用
2016年03月25日 14点03分 3
level 1
浅水清流 楼主
python中的字符串编码
获取字符串的编码类型:
encodingdate = chardet.detect(str)
chardet用于实现字符串的编码类型检测
chardet的下载地址请自行百度
查看获取到的编码类型:
print encodingdate['encoding']
将字符串转为unicode:
ustr = unicode(str, encodingdate['encoding'])
将unicode转为字符串:
ustr.encode('utf-8', 'ignore')
需要注意的是encode方法,str类型也有这个接口,
但是这个接口的作用是将unicode编码成指定编码的字符串,在str上是无效的。
2016年03月26日 08点03分 8
1