深思软件智能分类系统应用方案-信息系统解决方案.doc
深思软件智能分类系统应用方案 -信息系统解决方案 1.系统概述 根据 Delphi Group 2001 的报告中指出,企业中有百分之八十的知识是以非结构化信息的形式存在,其中百分之八十表现为文本文件,知识管理必须从文件着手而文件分类是必经的步骤。文件分类若以手工来进行则可能有如下问题:成本高、速度慢、信息更新频率慢、客观性不足,分类效果一致性低、可调整性低。 深思公司对于上述问题提出可行的解决方案 -”深思智能分类系统”。 深思智能分类系统,采用 IBM 中国研究中心独家授权的最新中文信息处理研究成果,集成强大的 IBM 中文分词软件,内置先进的 SVM 和 KNN 分类引擎,应用最新的统计学知识和语言学知识,准确率和召回率等各项技术指标都位居业界前列,自动分类准确率达到 85%以上,能够满足大多数应用的实用需求。 2.主要特点 2.1 强大的核心技术 中文语义理解 采用先进的中文自然语言理解与中文分词技术,依据中文语义内容实现自动分类。 高级分类算法 采用 IBM世界领先的 SVM分类算法和 KNN分类算法实现分类引擎,具有极 高的分类准确率和分类速度。 海量处理能力 采用多线程技术实现并行处理,可管理千万量级的海量文件集合,单日分类能力达十万篇以上。 多国语言支持 目前支持简体中文、繁体中文和英文。 2.2 完整的信息整合 支持多种数据格式 支持常用格式文件的入库和检索,如 TEXT, HTML, RTF, MS WORD,PDF 等。 支持多种异质数据源 采用可选的信息整合工具,可以整合大部分企业信息数据源,包括关系型数据库,文件系统,网站、 Notes 文档库等。 2.3 高效的自动分类 方便的图形 管理界面 让管理者利用清楚易用、从操作流畅的图形界面,轻松的管理、维护分类目录。 专业的分类目录构建 可轻松建立、管理分类目录,并可对目录进行新增/删除 /修改 /移动等操作。 完整的分类训练流程 通过训练样本预先测试、调整,再上线运行,确保分类的精确性,同时可以设定训练样本、调整样本,测试样本等不同层次的训练材料。 精确的分类效果评估 提供开放 /封闭等不同测试方法,完整记录测试结果,客观评估分类精确程度。 2.4 柔性的分类方式 单一文件多重分类 可采用多重分类法则,同一份文 件可被分类到不同分类法则的不同目录下。 虚拟目录多重归属 某一目录可归属多个上层目录之下,通过设定快捷方式,可以将单一目录虚拟连接到多个合适目录之下。 特殊规则自由定义 处理了依据单纯采用中文语义概念分类外,分类器更可提供规则设定,可依据特殊需求定义规则,也可将规则做为资料过滤条件。 2.5 方便的系统管理 整合的单一界面 系统提供基于 Web 的用户使用界面和管理员界面,满足系统管理员和用户双重需求,可利用浏览器远程管理分类目录、用户权限并调整、加强分类结果。 完整的目录维护 提供完整的对分类目录进行新增、移动、修改、删除等管理维护 权限管理,可设定管理目录和单一文件使用权限,加强安全管理。 实时的文件管理 可以浏览每个目录分类结果,并实时进行移动、更名等调整。也可指定训练样本,强化分类质量。 强大的搜索服务 结合可选的中文全文检索引擎,用户可以配合关键字条件检索资料。 友好的在线帮助 提供友好的使用指南。 2.6 灵活的开发接口 提供 C API 和 Javabeans 组件。 2.7 系统的开放性 支持与 DB2, Oracle 等主流 RDBMS 无缝集成的领先方案。 支持各种 Windows、 AIX、 Solaris、 Linux 等主流操作系统、支持各种 Web应用服务器和 Web 服务器 3.应用环境 3.1 硬件环境 要求硬件能运行 AIX、 Solaris、 Linux、 Windows NT 或 Windows 2000 操作系统,内存大小建议为 512M。 3.2 软件系统 支持 AIX、 Linux、 Solaris 三种 UNIX 操作系统, Windows NT 或 Windows 2000操作系统。 本软件的运行另外需要关系型数据库(如 DB2,Oracle,SQL Server 等)和Java 应用服务器(如 Websphere,Weblogic 等)的支持。