cookie用浏览器的开发者工具登陆微博后得到
只写了抓取下载页面部分 抽取内容可用jsoup完成 注意这是模拟浏览器登录的操作 你在浏览器上完成不了的 代码也不能完成(比如访问不是粉丝的人的第11页好友列表(新浪规定只能访问前10页非自己粉丝的微博用户))这个代码依赖JSOUP
- package jsoupTest;
- import java.io.IOException;import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;
- import org.jsoup.Connection.Method;import org.jsoup.Connection.Respe;import org.jsoup.Jsoup;
- public class JsoupTest { public static void main(String[] args) throws IOException { Map<String, String> map = new HashMap<>(); //map.put请根据自己的微博cookie得到
- Respe res = Jsoup.connect("http://weibo.com/u/别人的主页id") .cookies(map).method(Method.GET).execute(); String s = res.body(); System.out.println(s); String[] ss = s.split("<script>FM.view"); int i = 0; List<String> list = new ArrayList<>(); for (String x : ss) { if (x.contains("\"html\":\"")) { String value = getHtml(x); list.add(value); System.out.println(value); }
- } }
- public static String getHtml(String s) { String content = s.split("\"html\":\"")[1] .replaceAll("(\\\\t|\\\\n|\\\\r)", "") .replaceAll("\\\\\"", "\"") .replaceAll("\\\\/", "/"); content = content.substring(0, content.length() <= 13 ? content.length() : content.length() - 13); return Native2AsciiUtils.ascii2Native(content); }}
|
分享到:
相关推荐
用Java实现的新浪微博抓取关注列表和粉丝列表课程设计报告
多线程实现新浪微博粉丝抓取,快速抓取fans,follow,代码很简单主要是思路
新浪微博评论抓取 需要cookie和需要获取微博的评论的微博地址
新浪微博评论抓取 需要cookie和需要获取微博的评论的微博地址
本文主要介绍了Java模拟新浪微博登陆抓取数据的实现方法。具有很好的参考价值,下面跟着小编一起来看下吧
ROST 新浪定时监控工具,基于新浪微博Oauth模式认证下调用新浪微博api抓取新浪微博数据,支持实时(最少5秒钟抓取更新一次)抓取数据。数据包括微博作者、作者VIP判断、微博内容、发布时间、抓发评论数、如果是转发...
一个用C#写的实现新浪微博结果的批量抓取
新浪微博模拟登陆源代码,java实现,微博数据抓取
网络爬虫新浪微博抓取
抓取的新浪微博数据,可供研究之用,格式为excel
本程序可以连续爬取一个或多个新浪微博用户(如胡歌、迪丽热巴、郭碧婷)的数据,并将结果信息写入文件或数据库。写入信息几乎包括用户微博的所有数据,包括用户信息和微博信息两大类。因为内容太多,这里不再赘述,...
通过该程序,用户可以自动获取新浪微博上的用户信息、微博内容、评论等数据,实现批量采集和分析新浪微博内容的目的。 该爬虫程序主要利用Python中一些强大的爬虫工具,如Requests用于发送HTTP请求,Beautiful Soup...
微博数据抓取以及数据分析(已添加IP属地),包括: 用户ID,昵称,性别,认证信息,微博说明 用户的粉丝数量,关注数量,微博总数 每条微博的微博链接,微博内容,发布时间,发布设备,发布地点,抓取时的转发数,...
每隔十分钟抓取微博热搜榜,抓取时间为12个小时。
解决新浪微博需要登录,才能抓取的爬虫例子。
一:新浪微博接口之调用 二:新浪微博数据之分布式爬虫 三:基于hadoop-streaming分布式爬虫 四:单条微博数据抓取和统计视频展示 五:13亿用户关系(比例化)模型可视化视频展示
目的 自动从新浪微博中抓取含指定关键词的相关微博,通过对抓取的微博进行分析,得到相关舆情热点。方法 首先通过多线程爬虫,自动爬取含有指定关键字的微博,将其保存于数据库中,再采用基于字符串匹配的逆向最大...
(网络资源整理) SDK: weibo4j-oauth2-beta2.1.1.zip 新浪微博(含源代码).rar OAuthSohuExample-10152546.rar 其他: 微博数据抓取工具 0.rar weibo.rar
新浪微博爬虫,用python爬取新浪微博数据
新浪等微博内容的抓取算法,详细描述了抓取所需要的各个环节