基于机器学习的文本自动分类技术[4]

下面是本论文的组成。第二部分我们正式定义TC系统还有它的一些子情况,第三部分我们对TC系统做一个总览。第四部分我们描述基于ML的TC系统。从第五部分开始,我们通过文本索引讨论文本分类,例如,文本分类器的构建与实现。在第六部分,进行手动组织的训练集方法构建分类器。第七部分,讨论对分类结果的评估方法。在最后的第八部分里,我们将讨论后续对TC系统的学习。 2.文本分类 2.1 文本分类的定义 文本分类可以被定义为这样一个分配任务,即确定一个布尔值对于每一个对dj, ciDC, D 是文档域,C = {c1 ,...,cn }是预先给定的分类集合。dj, ci为真值T说明dj属于ci,否则就是F。....
More...

算法的力量

李开复:算法的力量算法是计算机科学领域最重要的基石之一,但却受到了国内一些程序员的冷落。许多学生看到一些公司在招聘时要求的编程语言五花八门就产生了一种误解,认为学计算机就是学各种编程语言,或者认为,学习最新的语言、技术、标准就是最好的铺路方法。其实大家都被这些公司误导了。编程语言虽然该学,但是学习计算机算法和理论更重要,因为计算机算法和理论更重要,因为计算机语言和开发平台日新月异,但万变不离其宗的是那些算法和理论,例如数据结构、算法、编译原理、计算机体系结构、关系型数据库原理等等。在开复学生网上,有位同学生动地把这些基础课程比拟为内功,把新的语言、技术、标准比拟为外功。整天赶时髦的人最后只懂....
More...

数学之美系列1

数学之美 系列一 -- 统计语言模型2006年4月3日 上午 08:15:00从本周开始,我们将定期刊登 Google 科学家吴军写的《数学之美》系列文章,介绍数学在信息检索和自然语言处理中的主导作用和奇妙应用。发表者: 吴军, Google 研究员 前言也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一个语言问题时,总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地,介绍一些数学工具,以及我们是如何利用这些工具来开发 Google 产品的。系列一: 统计语言模型 Statistica....
More...

一元稀疏多项式

 
******************************************************************* 文件名: CNode.h 摘要: 多项式中每一个项CNode类的声明文件 开发平台: Win Xp SP2 编译环境: CL.exe 8.0 in Visual Studio 2005 SDK 作者: 88250 完成日期: 2006-11-17 版本: 1.0 Blog: http:DL88250.ynutx.net E-mail: DL88250@gmail.com QQ: 845765 or 316281008 ********************....
More...

最新的卡巴Key文件

 
最近有许多朋友的卡巴出现了您的授权许可文件被列在黑名单中,请联系...... 就最近出现的问题,偶提供一些最新的下载地址,供朋友们选用,好用的时候,别忘了回贴呀. [卡巴12月7日1000人验证通过可用授权KEY] 有图 [完美完整版] 用至2007年12月6日的正版KEY 。 g200612731347.rar 2007年7月16日KEY文件 (能用的) 最新卡巴KEY下载地址: 附件:key.rar 20071118 20070903 20080201 2007507 5个KEY (能用的) 下载文件在我的服务器上,安全性请大家放心!推荐下载安装6.0.0.307版即可 用户....
More...

枚举USB设备

 
下面是代码。。。。 DeviceManager.cpp : 定义控制台应用程序的入口点。 #include stdio.h#include stdlib.h#include windows.h#include setupapi.h#define DIRECTINPUT_VERSION 0x0800#include Dinput.hextern C{ #include hidsdi.h}#include tchar.h#pragma commentlib, Dinput8.lib#pragma commentlib, Dinput.lib#pragma commentlib, Setupapi....
More...

基于机器学习的文本自动分类技术[3]

如今的TC系统应该是一个具有ML和IR功能的,如同从文本里返回信息知识、文本挖掘[Dorreetal 1999;Knight1999;Pazienza 1997]。在这里仍然有一些值得考虑的争论关于这两个学科的边界,术语学是一直都在发展之中的。我们可以尝试用文本挖掘去描述所有的这些任务,通过分析大量的文本和探测用法模式,尝试取出可能有用的(可能有是仅仅是正确的)信息。根据这个观点,TC系统就是一个文本挖掘的实例。 关于TC系统的文献现在有很多,但是我们还是应该公平地把它们区分开1。虽然有两个国际刊物已经发表了关于这个主题的文章[Joachimsand Sebastiani200 1;Lewis....
More...

基于机器学习的文本自动分类技术[2]

这个今天的翻译成果: 1.介绍 在最近10年里,对于文本信息的自动化管理任务(统称为信息取回IR)在信息系统领域里是处于相当重要的地位的。而文本信息数字化带来的海量数据的同时,用户却需要对这些信息进行便捷地访问文本分类TC,就是在自然文本语言上贴上一些标签,以按预订的分类方式去分类这些文本。TC有一个很长的历史,可以追溯到上世纪60年代,但是直到90年代的时候才成为了信息系统学科的子研究领域,这是由于硬件设备的快速发展而致。现在,TC已经用于很多地方:文本索引;文本信息过滤;自动元数据的产生;词意辨析;Web资源分类;应用程序中文本的管理等。虽然商业TC系统(例如:[Dorreetal.199....
More...

基于机器学习的文本自动分类技术[1]

今天看了一些关于文本信息自动分类的文章,感触颇多。。。。 找了一篇觉得不错的文章《Machine Learning in Automated Text Categorization》准备深入学习一下。这是一篇论文,作者是Consiglio Nazionale delle Ricerche, Italy。在学习的同时,做了一下翻译工作:-,以便和我一样对这个感兴趣的人一起学习,研究。。。。 翻译工作从今天开始进行,预计每天翻译至少一段(这篇论文有59页)。。。。有志同道合的可以一起合作翻译,呵呵! 好了,下面是今天的成果: Machine Learning in Automated Text C....
More...

二叉树类型设计

二叉树类型设计说明 一、引言 1.背景 二叉树是树形结构的一个重要类型,许多实际问题抽象出来的数据结构往往是二叉树的形式,即使是一般的树也能简单地转换为二叉树,因此,二叉树显得特别重要。 2.摘要 这是一个简单的二叉树类型及在此类型上的一些常用操作。该二叉树采用的是二叉链表的存储结构,C++实现。 3.工作条件 限制 由于时间仓促,外加人力有限,本二叉树类型的实现难免存在一些不足。可能会存在用户想要的接口没有定义的情况,也可能会存在是一些操作的实现效率低下等等就此,可能会在以后的时间里进行类型的再设计与优化。 二、总体设计 1.概要设计 这是一个二叉树的类模板,用户可以根据自己的需要设置二....
More...

最小生成树Kruskal

********************************************************************** 文件名: Arc.h 功能: 图中边类型的声明与实现 开发平台: Win Xp SP2 编译环境: CL.exe 8.0 in Visual Studio 2005 SDK 作者: 88250 完成日期: 2006-11-17 版本: 1.0 Blog: http:DL88250.ynutx.net E-mail: DL88250@gmail.com QQ: 845765 or 316281008 **************************....
More...

华为面试题。。。。

传说这是一道华为的面试题。。。。 ******************************************************************* 文件名: MinDifferenceAVG.cpp 问题描述: 有两个数组a、b,大小都为n,数组元素的值任意,无序; 通过交换a,b中的元素,使数组a元素的和与数组b元素的和之间的差最小, 最后输出两个数组和数组元素和的差值 解决思路:采用动态规划思想。先求出一个规划目标的模糊值AVG,表示完美的a与b的 情况:a的元素和sa与b的元素和sb相等,并都等于AVG。然后重置a与b:交换 a与b中的元素,另a中存有最小的n个元....
More...

#pragma 指示符的用法

 
写的比较好,所以转过来。。。。以后忘记的话还可以复习一下,呵呵^_^! #pragma 指示符 嗯,今天说点什么呢?昨天的话题中说到了使用#pragma指示符设定连接器参数来导出函数,其实#pragma的功能远远不止于此,大部分我都没用过,今天就随便说说的#pragma指示符中我所使用过一些东东吧。 1.指示文件只包含一次 在头文件中,一般在整个工程中我们只要包含一次就够了,但是如果我在多个 .c.cpp 文件中都要包含着个头文件,比如 Windows.h,那很多声明等等岂不是有两次了?解决这个问题的传统的方法是在头文件开始出用 #defi....
More...

QQ木马的简单实现,QQ盗号核心编程。。。。

 
宿舍是搬完了,不能上网,这个事情是相当呢郁闷了。。。。 哎。。。。现在在机房,写贴子: A sample source code about how to program QQ Trojan 呵呵,假期在家里。看看数据结构,看看C++。。。。无聊的时候想起了以前关于QQ的种种东西来^_^! 还记得以前写过些关于初级QQ盗号程序的帖子(自己也只有这个水平- -#),这个假期称着有时间,整理了一下。好了,废话不多说,下面介绍一下这个程序的4个大的部分: 1.Search QQ Directory。这是相当关键的一步,是后来Crack Keyboard Protection的基础。一开始我是用的整个....
More...

今天正式搬家过来CSDN了~~~~

呵呵,今天正式搬家过来了。 写Blog快一年了,不过里面写了很多废话。。。。 总结自己在写Blog时,写得最多的就是关于CC++编程的了,也许以后太向往这方面的工作了! 不过最讨厌的就是Web编程了,不会做网页,也不想做!Java也不是很感兴趣,还是喜欢CC++! 呵呵,先转点以前写的好的东西过来吧。。。。
More...