VB.NET 有什么解释处理html的好方法?
vb.net吧
全部回复
仅看楼主
level 1
alexziao
楼主
最近在做爬虫,好像.NET FRAMEWORK 没有自带的html解释器,吧里的大神有没有什么好推荐
2016年03月19日 15点03分
1
level 10
二笔青年🐷
HtmlAgilityPack
https://www.nuget.org/packages/HtmlAgilityPack
2016年03月20日 00点03分
2
alexziao
好插件!直接能nutget下载并控制版本,逻辑基本就是system.xml和system.xml.linq的混合体,官网有英文文档,不过不用看都能懂
2016年03月21日 09点03分
开门入户消毒请开门
@alexziao
怎么下载啊?nutget是什么?
怎么用完全不懂啊
2016年03月24日 14点03分
开门入户消毒请开门
@开门入户消毒请开门
百度了下,大概下载下来了,但是不会用。xpath类
2016年03月24日 14点03分
二笔青年🐷
@开门入户消毒请开门
http://zvon.org/xxl/XPathTutorial/General_chi/examples.html
2016年03月24日 15点03分
level 13
Nukepayload2
解释器? 用浏览器控件不行吗?
---贴吧极速版 For UWP
2016年03月20日 04点03分
3
alexziao
以前用控件做过,但网页获取与处理没办法分离,效率不高而且非常难处理网络传输带来的bug
2016年03月21日 09点03分
level 11
闪星2
用自带的webbrowser,想快就用2L那个第三方库,配合xpath爽歪歪,想更快,post
2016年03月20日 04点03分
4
alexziao
Xpath真的爽爆了,但更快的post是什么情况?能详细介绍吗?
2016年03月21日 09点03分
闪星2
@alexziao
不知道,说错话了吧
2016年03月21日 10点03分
level 1
啊呸BB你妹
做爬虫可以学一下python
2016年03月20日 11点03分
5
alexziao
爬虫只是其中一个小功能,不想为了一个功能换语言
2016年03月21日 10点03分
level 13
Nukepayload2
还有,做爬虫一定得学会用正则表达式
---贴吧极速版 For UWP
2016年03月21日 04点03分
6
alexziao
正则用来出来超级乱的html不是一个好主意,特别好多网页都写得和狗屎一样,一旦出现分支和纠错,正则又难写效率又低
2016年03月21日 10点03分
Nukepayload2
回复 alexziao : 效率低又不见得会卡 ---贴吧极速版 For UWP
2016年03月23日 05点03分
alexziao
@Nukepayload2
只要UI不卡就没人知道卡,但效率低做爬虫真的好慢。。我之前写过一次,不知道是不是写得太烂,反正就是识别1万个网页挂了差不多一天。。
2016年03月23日 12点03分
Nukepayload2
回复 alexziao : 1万个不至于计算一天吧。 ---贴吧极速版 For UWP
2016年03月23日 13点03分
level 12
杭州北极熊
.net 为什么不用HttpWebResponse?
2016年04月16日 00点04分
7
alexziao
这个只是网络协议,不负责解释接受的文件流
2016年04月16日 03点04分
杭州北极熊
@alexziao
解释这种东西都是可以自己做的
2016年04月16日 04点04分
alexziao
回复
@杭州北极熊
:何必呢,html这么复杂的东西,还要自己写个状态机解释
2016年04月17日 02点04分
level 9
🌱断小燕
看到有大神提到了正则表达式,我居然都没听过。于是去百度了,结果完全懵逼了………这玩意匹配规则,吓尿了。。。
——来自 诺基亚 Lumia 928
2016年04月22日 02点04分
8
🌱断小燕
卧槽,虽然真的很有用,但是这规则,,,,人类何苦为难人类。。。完全是另一种语言了有木有。 ——来自 诺基亚 Lumia 928
2016年04月22日 02点04分
闪星2
回复
wxtlovezch
:然而我知道正则这么多年也就用过一次。。。
2016年04月22日 17点04分
alexziao
回复
@wxtlovezch
:别人写的正则很难看懂,但自己了写正则真不难,难在调试,有专门的正则测试网站去测试匹配结果的
2016年04月23日 02点04分
二笔青年🐷
回复
wxtlovezch
:
http://deerchao.net/tutorials/regex/regex.htm
学会正则,一生受益。
2016年04月23日 15点04分
1