JAVA实现新浪微博页面抓取(非API) - soledede - ITeye博客

`

wbj0110

浏览: 1549106 次
性别:
来自: 上海

最近访客更多访客>>

一往无前bhz

ninja2006

loginboot

u012363178

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

wahahachuang5： web实时推送技术使用越来越广泛，但是自己开发又太麻烦了，我觉 ...
使用 HTML5 WebSocket 构建实时 Web 应用
秦时明月黑：
Jetty 服务器架构分析
chenghaitao111111：楼主什么时候把gecko源码分析一下呢，期待
MetaQ技术内幕——源码分析(转)
qqggcc：为什么还要写代码啊，如果能做到不写代码就把功能实现就好了
快速构建--Spring-Boot (quote)
yongdi2：好厉害！求打包代码
Hadoop日志文件分析系统

JAVA实现新浪微博页面抓取(非API)

博客分类：

Data Mining

阅读更多

cookie用浏览器的开发者工具登陆微博后得到
只写了抓取下载页面部分抽取内容可用jsoup完成注意这是模拟浏览器登录的操作你在浏览器上完成不了的代码也不能完成(比如访问不是粉丝的人的第11页好友列表(新浪规定只能访问前10页非自己粉丝的微博用户))这个代码依赖JSOUP

package jsoupTest;
import java.io.IOException;import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;
import org.jsoup.Connection.Method;import org.jsoup.Connection.Respe;import org.jsoup.Jsoup;
public class JsoupTest { public static void main(String[] args) throws IOException { Map<String, String> map = new HashMap<>(); //map.put请根据自己的微博cookie得到
Respe res = Jsoup.connect("http://weibo.com/u/别人的主页id") .cookies(map).method(Method.GET).execute(); String s = res.body(); System.out.println(s); String[] ss = s.split("<script>FM.view"); int i = 0; List<String> list = new ArrayList<>(); for (String x : ss) { if (x.contains("\"html\":\"")) { String value = getHtml(x); list.add(value); System.out.println(value); }
} }
public static String getHtml(String s) { String content = s.split("\"html\":\"")[1] .replaceAll("(\\\\t|\\\\n|\\\\r)", "") .replaceAll("\\\\\"", "\"") .replaceAll("\\\\/", "/"); content = content.substring(0, content.length() <= 13 ? content.length() : content.length() - 13); return Native2AsciiUtils.ascii2Native(content); }}

分享到：

Native2Ascii和Ascii2Native的Java实现 | Hadoop编程调用HDFS

2014-05-21 10:24
浏览 827
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

java实现新浪微博抓取关注和粉丝的课程设计报告: 用Java实现的新浪微博抓取关注列表和粉丝列表课程设计报告

新浪微博粉丝抓取: 多线程实现新浪微博粉丝抓取，快速抓取fans，follow，代码很简单主要是思路

新浪微博评论抓取v1.2: 新浪微博评论抓取需要cookie和需要获取微博的评论的微博地址

新浪微博评论抓取: 新浪微博评论抓取需要cookie和需要获取微博的评论的微博地址

Java模拟新浪微博登陆抓取数据: 本文主要介绍了Java模拟新浪微博登陆抓取数据的实现方法。具有很好的参考价值，下面跟着小编一起来看下吧

微博内容抓取工具: ROST 新浪定时监控工具，基于新浪微博Oauth模式认证下调用新浪微博api抓取新浪微博数据，支持实时（最少5秒钟抓取更新一次）抓取数据。数据包括微博作者、作者VIP判断、微博内容、发布时间、抓发评论数、如果是转发...

C#写的新浪微博批量抓取器: 一个用C#写的实现新浪微博结果的批量抓取

新浪微博模拟登陆: 新浪微博模拟登陆源代码，java实现，微博数据抓取

网络爬虫新浪微博抓取: 网络爬虫新浪微博抓取

新浪微博抓取数据: 抓取的新浪微博数据，可供研究之用，格式为excel

新浪微博爬虫，用python爬取新浪微博数据: 本程序可以连续爬取一个或多个新浪微博用户（如胡歌、迪丽热巴、郭碧婷）的数据，并将结果信息写入文件或数据库。写入信息几乎包括用户微博的所有数据，包括用户信息和微博信息两大类。因为内容太多，这里不再赘述，...

新浪微博python爬虫程序: 通过该程序，用户可以自动获取新浪微博上的用户信息、微博内容、评论等数据，实现批量采集和分析新浪微博内容的目的。该爬虫程序主要利用Python中一些强大的爬虫工具，如Requests用于发送HTTP请求，Beautiful Soup...

微博数据抓取以及数据分析: 微博数据抓取以及数据分析（已添加IP属地），包括：用户ID，昵称，性别，认证信息，微博说明用户的粉丝数量，关注数量，微博总数每条微博的微博链接，微博内容，发布时间，发布设备，发布地点，抓取时的转发数，...

抓取_爬取微博热搜_: 每隔十分钟抓取微博热搜榜，抓取时间为12个小时。

需要登录才能抓取的新浪微博爬虫例子: 解决新浪微博需要登录，才能抓取的爬虫例子。

python新浪微博数据分布式挖掘: 一：新浪微博接口之调用二：新浪微博数据之分布式爬虫三：基于hadoop-streaming分布式爬虫四：单条微博数据抓取和统计视频展示五：13亿用户关系（比例化）模型可视化视频展示

含关键字的新浪微博获取与舆情分析* (2014年): 目的自动从新浪微博中抓取含指定关键词的相关微博，通过对抓取的微博进行分析，得到相关舆情热点。方法首先通过多线程爬虫，自动爬取含有指定关键字的微博，将其保存于数据库中，再采用基于字符串匹配的逆向最大...

新浪微博相关SDK包、微博爬虫整理: (网络资源整理) SDK: weibo4j-oauth2-beta2.1.1.zip 新浪微博（含源代码）.rar OAuthSohuExample-10152546.rar 其他: 微博数据抓取工具 0.rar weibo.rar

新浪微博爬虫，用python爬取新浪微博数据.zip: 新浪微博爬虫，用python爬取新浪微博数据

新浪等微博内容的基本抓取策略: 新浪等微博内容的抓取算法，详细描述了抓取所需要的各个环节

Global site tag (gtag.js) - Google Analytics