VB.NET 有什么解释处理html的好方法?
vb.net吧
全部回复
仅看楼主
level 1
alexziao 楼主
最近在做爬虫,好像.NET FRAMEWORK 没有自带的html解释器,吧里的大神有没有什么好推荐
2016年03月19日 15点03分 1
level 10
2016年03月20日 00点03分 2
好插件!直接能nutget下载并控制版本,逻辑基本就是system.xml和system.xml.linq的混合体,官网有英文文档,不过不用看都能懂
2016年03月21日 09点03分
@alexziao 怎么下载啊?nutget是什么? [汗]怎么用完全不懂啊
2016年03月24日 14点03分
@开门入户消毒请开门 百度了下,大概下载下来了,但是不会用。xpath类
2016年03月24日 14点03分
level 13
解释器? 用浏览器控件不行吗?
---贴吧极速版 For UWP
2016年03月20日 04点03分 3
以前用控件做过,但网页获取与处理没办法分离,效率不高而且非常难处理网络传输带来的bug
2016年03月21日 09点03分
level 11
用自带的webbrowser,想快就用2L那个第三方库,配合xpath爽歪歪,想更快,post
2016年03月20日 04点03分 4
Xpath真的爽爆了,但更快的post是什么情况?能详细介绍吗?
2016年03月21日 09点03分
@alexziao 不知道,说错话了吧[吐舌]
2016年03月21日 10点03分
level 1
做爬虫可以学一下python
2016年03月20日 11点03分 5
爬虫只是其中一个小功能,不想为了一个功能换语言
2016年03月21日 10点03分
level 13
还有,做爬虫一定得学会用正则表达式
---贴吧极速版 For UWP
2016年03月21日 04点03分 6
正则用来出来超级乱的html不是一个好主意,特别好多网页都写得和狗屎一样,一旦出现分支和纠错,正则又难写效率又低
2016年03月21日 10点03分
回复 alexziao : 效率低又不见得会卡 ---贴吧极速版 For UWP
2016年03月23日 05点03分
@Nukepayload2 只要UI不卡就没人知道卡,但效率低做爬虫真的好慢。。我之前写过一次,不知道是不是写得太烂,反正就是识别1万个网页挂了差不多一天。。
2016年03月23日 12点03分
回复 alexziao : 1万个不至于计算一天吧。 ---贴吧极速版 For UWP
2016年03月23日 13点03分
level 12
.net 为什么不用HttpWebResponse?
2016年04月16日 00点04分 7
这个只是网络协议,不负责解释接受的文件流
2016年04月16日 03点04分
@alexziao 解释这种东西都是可以自己做的
2016年04月16日 04点04分
回复@杭州北极熊 :何必呢,html这么复杂的东西,还要自己写个状态机解释
2016年04月17日 02点04分
level 9
看到有大神提到了正则表达式,我居然都没听过。于是去百度了,结果完全懵逼了………这玩意匹配规则,吓尿了。。。
——来自 诺基亚 Lumia 928
2016年04月22日 02点04分 8
[泪]卧槽,虽然真的很有用,但是这规则,,,,人类何苦为难人类。。。完全是另一种语言了有木有。 ——来自 诺基亚 Lumia 928
2016年04月22日 02点04分
回复
wxtlovezch
:然而我知道正则这么多年也就用过一次。。。[太开心]
2016年04月22日 17点04分
回复@wxtlovezch :别人写的正则很难看懂,但自己了写正则真不难,难在调试,有专门的正则测试网站去测试匹配结果的
2016年04月23日 02点04分
回复
wxtlovezch
:http://deerchao.net/tutorials/regex/regex.htm 学会正则,一生受益。
2016年04月23日 15点04分
1