标签墙

Text Categorization

基于机器学习的文本自动分类技术[1]

今天看了一些关于文本信息自动分类的文章,感触颇多。。。。 找了一篇觉得不错的文章《Machine Learning in Automated Text Categorization》准备深入学习一下。这是一篇论文,作者是Consiglio Nazionale delle Ricerche, Italy。在学习的同时,做了一下翻译工作:-,以便和我一样对这个感兴趣的人一起学习,研究。。。。 翻译工作从今天开始进行,预计每天翻译至少一段(这篇论文有59页)。。。。有志同道合的可以一起合作翻译,呵呵! 好了,下面是今天的成果: Machine Learning in Automated Text C....
More...

基于机器学习的文本自动分类技术[2]

这个今天的翻译成果: 1.介绍 在最近10年里,对于文本信息的自动化管理任务(统称为信息取回IR)在信息系统领域里是处于相当重要的地位的。而文本信息数字化带来的海量数据的同时,用户却需要对这些信息进行便捷地访问文本分类TC,就是在自然文本语言上贴上一些标签,以按预订的分类方式去分类这些文本。TC有一个很长的历史,可以追溯到上世纪60年代,但是直到90年代的时候才成为了信息系统学科的子研究领域,这是由于硬件设备的快速发展而致。现在,TC已经用于很多地方:文本索引;文本信息过滤;自动元数据的产生;词意辨析;Web资源分类;应用程序中文本的管理等。虽然商业TC系统(例如:[Dorreetal.199....
More...

基于机器学习的文本自动分类技术[3]

如今的TC系统应该是一个具有ML和IR功能的,如同从文本里返回信息知识、文本挖掘[Dorreetal 1999;Knight1999;Pazienza 1997]。在这里仍然有一些值得考虑的争论关于这两个学科的边界,术语学是一直都在发展之中的。我们可以尝试用文本挖掘去描述所有的这些任务,通过分析大量的文本和探测用法模式,尝试取出可能有用的(可能有是仅仅是正确的)信息。根据这个观点,TC系统就是一个文本挖掘的实例。 关于TC系统的文献现在有很多,但是我们还是应该公平地把它们区分开1。虽然有两个国际刊物已经发表了关于这个主题的文章[Joachimsand Sebastiani200 1;Lewis....
More...

基于机器学习的文本自动分类技术[4]

下面是本论文的组成。第二部分我们正式定义TC系统还有它的一些子情况,第三部分我们对TC系统做一个总览。第四部分我们描述基于ML的TC系统。从第五部分开始,我们通过文本索引讨论文本分类,例如,文本分类器的构建与实现。在第六部分,进行手动组织的训练集方法构建分类器。第七部分,讨论对分类结果的评估方法。在最后的第八部分里,我们将讨论后续对TC系统的学习。 2.文本分类 2.1 文本分类的定义 文本分类可以被定义为这样一个分配任务,即确定一个布尔值对于每一个对dj, ciDC, D 是文档域,C = {c1 ,...,cn }是预先给定的分类集合。dj, ci为真值T说明dj属于ci,否则就是F。....
More...

构建基于词典的Lucene分析器

Lucene 是Apache的一个基于Java的开放源代码的搜索软件包,也是目前最为流行的搜索软件包。但是对于绝大多数中文用户来说其提供的两个中文分析器 ChineseAnalyzer和CJKAnalyzer的能力又太弱了,因此我们有必要开发适合自己的中文分析器。这篇文章中给出了一个基于词典的 简单的实现。 实现这个中文分析器的过程就像是一场精彩的赛事。好了,让我们马上开始。 冗长的代码常常是复杂性的标志,会导致代码难以测试和维护。 这是我在近期的文章中随便找来的一句话,将用它来阐明我们将要做什么和做到什么程度。 既然是比赛嘛就不能没有对手!我们的两个对手分别是ChineseAnalyzer....
More...

编写简单的中文分词程序

几个月之前,在网上找到了一个中文词库素材几百K,当时便想写一个分词程序了.我对汉语分词没有什么研究,也就凭自己臆想而写.若有相关方面专家,还请多给意见.一、词库 词库大概有5万多词语google能搜到,类似的词库都能用,我摘要如下: 地区82重要81新华社80技术80会议80自己79干部78职工78群众77没有77今天76同志76部门75加强75组织75 第一列是词,第二列是权重.我写的这个分词算法目前并未利用权重.二、设计思路 算法简要描述: 对一个字符串S,从前到后扫描,对扫描的每个字,从词库中寻找最长匹配.比如假设S=我是中华人民共和国公民,词库中有中华人民共和国, 中华,公民,人民....
More...

Lucene入门与使用

本文主要面向具体使用,适用于已熟悉java编程的lucene初学者。1. Lucene的简介 1.1 Lucene 历史 org.apache.lucene包是纯java语言的全文索引检索工具包。 Lucene的作者是资深的全文索引检索专家,最开始发布在他本人的主页上,2001年10月贡献给APACHE,成为APACHE基金jakarta的一个子项目。 目前,lucene广泛用于全文索引检索的项目中。 lucene也被翻译成C#版本,目前发展为Lucene.Net(不过最近好象有流产的消息)。 1.2 Lucene 原理 lucene的检索算法属于索引检索,即用空间来换取时间,对需要检索的....
More...

朴素贝叶斯中文文本分类器的研究与实现(1)[88250原创]

转载请保留作者信息: 作者:88250 Blog:http:blog.csdn.netDL88250 MSN Gmail QQ:DL88250@gmail.com 引言 将文本信息按预先指定的类别归类的技术可以追溯到上世纪60年代。不过,在最近的10年里,由于文本信息数字化而带来的海量数据,导致我们不得不将这些信息进行分类。由此,文本信息的自动分类得到了广泛的关注和快速的发展。 一 些研究表明,机器学习技术解决这个问题是较为有效的方法:通过一种广义的诱导学习建立相应的自动分类器,形成预先文档信息的一个或多个特征的分类集合。基....
More...

朴素贝叶斯中文文本分类器的研究与实现(2)[88250、zy、Sindy原创]

转载请保留作者信息: 作者:88250 Blog:http:blog.csdn.netDL88250 MSN E-mail QQ:DL88250@gmail.com 作者:zy Blog:http:blog.csdn.netzyofprogrammer 作者:Sindy E-Mail:sindybanana@gmail.com 续上篇 上次说到了效率的问题,现在已经解决了,还修复了不少的Bugs :- 不过,查阅了一些文献后,发现了一个新的理论问题。 理论问题 朴素贝叶斯文本分类模型分为两种: 文档型 词频型 都是使用下式计算进行分类: cNB=arg....
More...