cestella/NLPWithMahout · GitHub是一个使用Mahout实现自然语言处理(NLP:Natural Language Processing)的开源项目。
NLP一词来自于统计自然语言处理,来自google的研究主管Peter Norvig评价这本书:如果有人告诉我在一年内能赚一百万,那么就只有这本书能做到,我复制了这本书,并开始启动一个web 文本处理公司。
Apache Mahout is 一个能够运行在Hadoop上的分布式机器学习算法高性能库,可用算法如下:
类型:算法 Linear Algebra : Stochastic Gradient Descent Linear Algebra : Stochastic Singular Value Decomposition Classification: Random Forests Classification : Naïve Bayesian Classification :Hidden Markov Models Clustering :Normal and Fuzzy K-Means Clustering :Expectation Maximization Clustering :Dirichlet Process Clustering Clustering :Latent Dirichlet Allocation Clustering :Spectral Clustering Clustering :MinHash Clustering Pattern Mining: Parallel FP Growth |
Mahout 提供了很多工具库,允许从hadoop中以ML算法格式获取数据。
基本模式有:
1.将文本转为序列文件 SequenceFiles,通过 seqdirectory
命令。
2.将序列文件转为一系列稀疏向量,使用seq2sparse,根据选择使用 word-integer和feature-weight.
3.转换与稀疏向量关联的Key到使用rowid命令的可增量整数。
另外,可在Mahout中使用Latent Dirichlet Allocation(LDA),通过客户一遍一遍购买记录,能够猜测其购买偏好。Mahout是LDA原始实现的性能15倍。
LDA在Mahout使用方式:
输入数据作为一个稀疏向量;
建立来自文档字段的管道,如下三个步骤:
1. seqdirectory ! 转换包含每行一个文档的系列文档到序列文件
2. seq2sparse ! 将序列文件作为条目字典转为稀疏向量。
3. rowid !转为稀疏向量的key到整数
cvb工具能够运行LDA算法。输入是字数加权频率的序列文件,输出是topic 模型。
http://www.jdon.com/45591
相关推荐
基于Mahout实现协同过滤推荐算法的电影推荐系统
MovieRecommender基于Mahout实现协同过滤推荐算法的电影推荐系统^
该资源是在Eclipse平台里,使用Mahout库的API,实现基于用户的协同过滤算法,从而进行商品推荐。 软件环境是:win7 64位 +Eclipse4.4 + jdk1.6, 用到了7个.jar包, 分别为:commons-logging-1.2.jar, commons-...
使用mahout机器学习改进solr查询结果
基于Mahout协同过滤实现图书推荐系统_书籍推荐系统源码+项目说明.zip 基于协同过滤的书籍推荐系统,图书推荐系统 最新版本,在原先手动计算皮尔逊相似度和评分矩阵的基础上添加了Mahout实现的协同过滤推荐算法. ...
mahout-examples-0.11.1 mahout-examples-0.11.1-job mahout-h2o_2.10-0.11.1 mahout-h2o_2.10-0.11.1-dependency-reduced mahout-hdfs-0.11.1 mahout-integration-0.11.1 mahout-math-0.11.1 mahout-math-0.11.1 ...
hibernate + struts + spring + bootstarp + mahout 实现功能: 后台图书管理: 图书的增删改查, 后台类目。 前台书店: 图书的分页查看, 前台类目, 多条件查询, 智能推荐, 购物车, 支付。
mahout0.9不能运行在hadoop2中,会报interface错误,用此新编译后的包,可实现mahout+hadoop2的运行环境,其中包括编译后的包及源码。
Mahout:整体框架,实现了协同过滤 Deeplearning4j,构建VSM Jieba:分词,关键词提取 HanLP:分词,关键词提取 Spring Boot:提供API、ORM 关键实现 基于用户的协同过滤 直接调用Mahout相关接口即可 选择不同...
mahout_help,mahout的java api帮助文档,可以帮你更轻松掌握mahout
Mahout 官方文档,简单介绍Mahout概念及其安装和简单使用
maven_mahout_template-mahout-0.8
mahoutAlgorithms源码分析 mahout代码解析
mahout聚类算法的介绍,例如:Canopy,KMeans,Fuzzy-KMeans,Spectral Clustering等参数介绍和适用场景介绍
MAHOUT实战 MAHOUT IN ACTION
mahout-0.3.tar
基于Mahout实现协同过滤推荐算法的电影推荐系统 - 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! 1、...
电影推荐系统_基于Mahout实现的协同过滤推荐算法的电影推荐系统_项目源码_优质项目实战
MAHOUT实战--高清版.pdf 个人收集电子书,仅用学习使用,不可用于商业用途,如有版权问题,请联系删除! 通过收集数据来学习和演进的计算机系统威力无穷。Mahout作为Apache的开源机器学习项目,把推荐系统、分类和...