D 的个人博客   Java/Go/Linux/开源

小而美的 Java 博客系统 Solo
Golang 在线 IDE Wide
黑客与画家的社区 Sym

基于机器学习的文本自动分类技术[2]

    这个今天的翻译成果:

    1.介绍

    在最近10年里,对于文本信息的自动化管理任务(统称为信息取回——IR)在信息系统领域里是处于相当重要的地位的。而文本信息数字化带来的海量数据的同时,用户却需要对这些信息进行便捷地访问……文本分类——TC,就是在自然文本语言上贴上一些标签,以按预订的分类方式去分类这些文本。TC有一个很长的历史,可以追溯到上世纪60年代,但是直到90年代的时候才成为了信息系统学科的子研究领域,这是由于硬件设备的快速发展而致。现在,TC已经用于很多地方:文本索引;文本信息过滤;自动元数据的产生;词意辨析;Web资源分类;应用程序中文本的管理等。虽然商业TC系统(例如:[D¨orreetal.1999])还没有被广泛用于商业IR系统里,但是实验性质的TC系统已经达到了较高水准(例如[Lewisetal.1999],描述了一个较复杂的TC架构)。

    直到80年代后期,对于TC系统最受欢迎的研究方法(至少是“可运作的”,也就是商业性质的)就是知识工程(KE)了,它是按给定的分类标准,把一些专家知识用手工的方式进行信息的分类。但是,从90年代一开始,知识工程就不受那么欢迎了,特别是在研究领域里,取而代之的是机器学习(ML)。它是通过一种广义的诱导学习过程而建立起相应的自动分类器,形成预先文档信息的一个或多个特征的分类集合。这个方法的优点是(i)有和人类的专家一样的精确度,(ii)相当节省人力,因为分类器的构建是不需要知识工程师或领域专家的干涉的。本文的中心就是围绕机器学习(ML)的方法是如何应用于文本分类(TC)系统的。

      

    validate