锐研文本分析和挖掘系统(Ring BigResearch TextAnalyzer)

2016-02-06
乐天堂fun88科技
摘要:锐研文本分析和挖掘系统(Ring BigResearch TextAnalyzer)是一套基于自然语言处理(NLP)技术的文本分析和挖掘软件,支持对采集的文本内容进行文本分析,包括文本分词、词性标注和词频统计。平台可集成多个中文处理引擎;支持结合系统和用户自定义的词汇字典库进行各类词频分析、文本分类、文本聚类、情感分析等。

一、概述

锐研文本分析和挖掘系统(Ring BigResearch TextAnalyzer)是一套基于自然语言处理(NLP)技术的文本分析和挖掘软件,支持对采集的文本内容进行文本分析,包括文本分词,词性标注和词频统计。平台可集成多个中文处理引擎;支持结合系统和用户自定义的词汇字典库进行各类词频分析、文本分类、文本聚类、情感分析等。

二、产品功能

(1)系统集成

系统基于纯BS架构,作为子系统能集成到统一的大数据研究云平台,共享云平台的统一管理功能。

(2)文本分词

利用自然语言处理(NLP)分词算法对文本进行分词,词性标注;支持选择不同的分词算法;支持系统和用户自定义的词汇字典库。

(3)词频统计

支持对单篇文章分好的单词进行词频统计;支持批量词频统计;支持根据数据源、日期、地域等条件对所有文本进行词频统计,文本数量统计。

(4)文本分类

根据一个训练集,对新的文本进行数据分类。

(5)文本聚类

在没有训练集的情况下,根据算法对所有文本进行聚类分析。

(6)情感分析

支持根据情感字典库来判断某一个文章的正负情感。

三、特色和优势

(1)NLP自然语言处理技术

通过自然语义处理(NLP)技术对文本进行中文分词和语义识别及分析,通过机器学习方法对海量互联网文本进行分析学习建模,从而实现从分词、词性、句法、实体等一系列角度对文本的综合分析。

(2)可配置的情感特征库

支持抓取主流门户、新闻、论坛、文献等各类数据源;基于可配置的情感特征语料库实现对特定领域的文本进行情感分析。

(3)文本多维变量统计分析

提取文本的发布时间、地点、点击率、回复数以及其他可进行结构化转换的变量,以进行复杂的多维词频和数量统计分析。




    发表评论
    评论通过审核后显示。