[求助] 想要抓取新浪微博得正文在判断该内容的积极性
java吧
全部回复
仅看楼主
level 10
清风丶醉l
楼主
如题求助 首先解决如何获取新浪微博正文的内容,我自己目前也在研究 还是没有什么结果 用的 httpclient,只不过确实不懂这玩意,希望有懂得网络蜘蛛的大牛来帮个忙
2014年04月03日 13点04分
1
level 10
清风丶醉l
楼主
自己研究一个星期了 还是没有什么实质的结果,还是决定转变策略还和吧里的人交流一下,希望吧里的朋友过来帮忙指点一下
2014年04月03日 13点04分
2
level 10
清风丶醉l
楼主
还没人来? 求助帖都没人看? 真变得这么水了?
2014年04月03日 13点04分
3
level 12
夜轩浪
httpclient + jsoup,这个其实没什么难的啊,微博搜索的地址是
http://s.weibo.com/
,你随便搜一个词然后用火狐或者chrome去分析它的请求就可以了,然后用httpclient模拟发送,我做过这个,主要要注意的就是返回的页面是一堆js,里面包含了html代码,你要用正则把HTML代码抓出来
2014年04月03日 13点04分
4
他们都叫我神
用了jsoup,还需要正则嘛?
2014年04月03日 13点04分
夜轩浪
回复 ╱―★神★―╲ :··主要是微博的页面都是用js生成的,你可以去那个地址搜索一下看, 然后查看一下网页源码··都是js的代码,但是里面包含了html的代码,要先用正则把html抓出来,然后再用jsoup去解析
2014年04月03日 13点04分
清风丶醉l
主要是没接触,菜鸟一枚,我先找找你给的资料,到时候再向你请教,目前我用httpclient已经可以抓取,下一步处理还不会,我先自己研究研究
2014年04月03日 13点04分
他们都叫我神
回复 夜轩浪 :
没看。 如果内容是js的话 ,那就是异步拿的数据。
2014年04月03日 13点04分
level 11
纸上线线
哈哈
2014年04月12日 11点04分
6
level 10
依旧木木夕
十五字
十五字十五字十五字十五字
2014年04月12日 13点04分
8
level 13
danycive
你不觉得这个问题的关键在于怎么定义“积极性”吗?
抓取什么的这种纯技术的问题都算不上问题
2014年04月12日 13点04分
10
1