所在位置:首页>文化交流>学术研究

德温特世界专利索引(DWPI)数据库加工过程的研究

来源:检索中心作者:张秉斋发布时间:2018/11/22 8:52:32


      DWPI(Derwent World Patent Index®)数据库是汤姆森科技(Thomson Scientific)公司生产的世界上首屈一指的专利信息资源,主要用于技术预警与分析,竞争性情报、现有技术和可专利性的检索,以及专利侵权和无效检索。截止到20076月,数据库共包括约1550万条记录,涵盖约3307万件专利文件。DWPI数据库的一条记录究竟是怎样制作的呢?本文旨在概括地介绍汤姆森科技的专利分析师在生产DWPI过程中所做的工作,希望本文能为我局的专利文献和非专利文献的数据深加工工作提供一点参考。

    一、人员


汤姆森科技现在从事DWPI数据库生产的专业分析师约350人,按技术领域分为以下12个组:1. 聚合物;2. 普通化学;3. 药物(化学);4. 药物(生物);5. 仪器;6. 半导体;7. 视听与信号处理;8. 计算;9. 通信;10. 运输;11. 工业;12. 电力电子。新进人员至少需要经过68个月的基础培训。DWPI的编辑中心设在英国。此外,TSTeamSpeak,一种IP语音通信系统)编辑设施目前正在印度安装。补充的编辑资源将会改善数据质量和及时性。

 

二、数据

DWPI现在收录41个专利机构所公开的专利文件,每周的处理量约为3.8万件。数据呈现多样性:

1. 数据递送介质以电子形式为主,如:硬盘、软盘、磁带等,但也有少量纸件;

2. 数据格式多种多样,如:ASCII文本、SGMLXMLTIFF图像、PDF等;

3. 数据内容包括著录项目数据、摘要、说明书全文等;

4. 语言共18种。

 

三、加工过程

在过去的30多年里,DWPI的加工流程有一定的调整,但其基本加工流程如图1所示。

1. 初步加工

为了管理如此大量、多样化的专利信息,数据分析师首先要对接收到的数据做一系列的初步加工处理,以便将数据转换成统一格式,识别并校正系统数据差错,进行名称标准化,识别新的发明或将已有发明归于已有专利族。

非罗马字符名称的音译、拼写错误或不正确的格式都会造成名称错误,通过识别并修正公司名称和发明人名称中的错误可提高专利信息的准确度。根据内部登记文档来检查公司名称,对识别出的公司添加德温特公司代码;对于新的公司名称,给定一个新的代码并添加到内部登记文档中。


                      

1 DWPI的基本加工流程


    例如:20075月经过人工修正的专利权人/发明人名称、优先权日、申请日、国际专利分类的数量如图2所示:

 


2 20075月通过手工修正的错误量(DWPI)

 DWPI采用“一个发明一条记录的原则”。在接收一件专利文件时,要根据德温特内部的专利优先权数据登记文档来进行“基本”/“等同”检索。如果新收到的专利文件中的优先权数据与先前处理过的任何一件专利文件的优先权数据都不匹配,则该专利文件被确定为描述了一个新的发明,被指定为“基本”,并且用一个新的、唯一的入藏号创建一条新的DWPI记录。如果该专利文件的优先权数据与已经列在内部登记文档中一件发明的优先权数据相匹配,则将其指定为“等同”,并将其著录项目数据添加到已有的DWPI记录中。

 DWPI专利族是在不同国家(地区)、以不同(或相同)语言公开的与同一发明相关的文件的集合。通过直接优先权数据比对来识别密切相关的同族专利以及间接关联的同族专利,并创建同族专利之间的连接。由德温特分析师做最后决定,并将“非常规”的等同专利文件也添加到专利族中。这些“非常规”等同专利文件是在巴黎公约条款规定之外(在12个月的优先权期限之后或由非签约国)申请的、没有优先权信息的文件。

 在DWPI的加工过程中,对原专利数据进行如上所述的智力性整理是使专利信息增值的重要途径之一。

2. 深加工

 汤姆森科技除了对原专利数据进行智力性整理外还有许多由分析师完成的深加工项目,以实现专利信息的进一步增值。这些深加工项目包括:分类;发明名称和摘要的改写;手工代码的标引;化合物和聚合物的深度标引。它们一起构成了专利信息增值拼图,如图3所示:

 

3 DWPI的信息增值拼图

 

1) 分类

 德温特于1970年开发了自己的分类系统,它是一种技术领域分类系统,2006年出版了第3版。该分类系统将发明分成21个宽泛的技术领域——部:

   M(化学)

   P-Q工程

   S-X(电子与电气)

 在每个部中,进一步将发明分成一个或多个德温特类。每个类由代表部的字母和随后的两位数字组成,例如:

   X22是表示汽车电子装置的类号;

   C04是表示化学肥料的类号。

 德温特分类始终是由本技术领域的分析师来完成的。当这些分类号与其他联机检索手段(如:关键词检索)进行组合使用时,可以将检索精确、有效地限制到相关的主题范围。交叉分类可确保检索到全部相关专利。

将描述新的发明的专利根据它们的技术内容进行归类,并分配给相关的编辑部门,相应领域的德温特分析师(科学家和工程师)对其进行分析。涵盖多个技术领域的发明需要分配给多个相应领域的分析师。

2) 发明名称和摘要的改写

①发明名称的改写

在一些情况下,专利说明书的发明名称故意不提供相关信息,这是因为申请人不希望在审查之前其他人知道申请文件的详细情况。DWPI记录中的发明名称并不是原专利文件中的发明名称。DWPI发明名称涵盖发明的范围、用途和新颖性,即:该发明是什么、有什么应用、新颖之处是什么。不论原来是何种语言,DWPI记录的发明名称都是英文。加工后的发明名称易于浏览并且对发明高度概括,以使检索者能够迅速地鉴别出哪些专利对其有用,从而节省时间和金钱。

 DWPI较早的发明名称由两部分组成,其间用短划线分开。第一部分指明发明的领域(即发明是什么,其用途是什么),第二部分概括发明的新颖之处。从1999年开始,对发明名称重新进行了结构化,现在发明名称只指明发明领域。

1

   专利原发明名称:用于治疗多发性硬化的苯酚衍生物(Phenol derivatives for treating multiple sclerosis)

   DWPI发明名称:4-氨基烷基-苯酚衍生物、4-羟基苯甲酰胺衍生物和(4-羟基-苯基)-烷酰胺衍生物用于治疗多发性硬化的用途(Use of 4-aminoalkyl-phenol derivatives, 4-hydroxybenzamide derivatives and (4-hydroxy-phenyl)-alkanamide derivatives for treatment of multiple sclerosis)

2

   专利原发明名称:一种调整有机颜料的方法(A method for conditioning organic pigments

   DWPI发明名称:用于大分子物质、涂料和油墨的着色组合物含有用表面活性剂调整的有机颜料(Pigmentation composition for macromolecular substances, coatings and inks-contains an organic pigment conditioned with a surfactant)

另外,计算机从DWPI发明名称根据《德温特主题词(Derwent Title Terms)》自动生成主题词。

例如:

   发明名称:Dispensing head for mounting on reservoir of self foaming product has shut-off device which elastically returns to the closed position when pressure is released from an actuating fitting

   主题词:DISPENSE; HEAD; MOUNT; RESERVOIR; SELF; FOAM; PRODUCT; SHUT; DEVICE; ELASTIC; RETURN; CLOSE; POSITION; PRESSURE; RELEASE; ACTUATE; FIT

 主题词,原来称为索引词(Index term),用于简化发明名称的词检索(Word Searching),并且提高词检索的查全率。一个主题词的所有已知派生词都被收集在主词(Main term)之下。这些派生词被称为副词(Sub-terms)。当主词或副词中任意一个出现在DWPI发明名称中时,只有相应的主词被生成为主题词。

 例如:当检索主题词“DESALINATE”时,会命中在发明名称中出现desalinate或其十个副词之一的所有记录,如图4所示:

4 主题词检索示例

    主词和副词都可作为主题词(Title word)来检索。另外,在发明名称中所出现的其它词也可以作为主题词来检索,只有下列词除外:AN, AND, ARE, AS, AT, BE, BY, FOR, FROM, HAS, IN, INTO, IS, NOT, OF, ON, OR, THE,THEN, WHEN, WHERE, WHICH

②摘要的改写

 根据技术领域,由本技术主题的分析师撰写的摘要较详细地说明发明的权利要求和说明书,并且强调技术的主要用途和优点。不论专利的原语言是什么,都以英文重新撰写摘要。摘要也从1999年开始重新进行了结构化。从1999年第8周开始摘要中增加了“新颖性”字段。标准型(快报型)摘要包括以下7个字段:

   新颖性:为强制性字段。简要地描述表征发明的创新性步骤,即本发明与现有技术明显的不同之处。

   详细描述:当在“新颖性”字段中不能描述所有的创新性步骤时,就要求在本字段中更详细地描述发明的范围及内容(scope and context)。本部分通常要涵盖专利的所有主要独立权利要求(或在可能的情况下的其他独立权利要求),那些更适合包括在其他字段中的独立权利要求除外(例如:主张具体应用的独立权利要求应被包括在“用途”字段中)。

   活性:对所主张的发明的生物效果的描述,尤其是对于药物、兽药或农化专利。

   作用机制:对发明用以产生其效果所使用的生物学机理的描述,尤其是对于药物、兽药和农化专利。

   用途:列出发明的应用领域。

   优点:根据发明人的描述,对发明优点的概述。

   附图描述:对可能的附图的简要描述,包括附图标记。1988年之后的DWPI记录中有可能存在电气和工程附图;1992年之后的DWPI记录中有可能存在化学结构附图。

另外,从1999年第8周开始还增加了“技术焦点”字段。“技术焦点”字段提供比标准型摘要更进一步的信息,其从不同的技术视点描述发明,从而有助于以更易理解的方式呈现发明的技术内容。

1999年第8周开始还引入了“扩展型摘要”字段。该字段应该与“标准型摘要”和“技术焦点”连在一起阅读,以提供对发明的更为详细的概括。“文献型摘要”是“扩展型摘要”的前身。文献型摘要存在于1995年至1999年的DWPI记录中。

德温特摘要旨在提供比原摘要更多的信息,并且涵盖所有与技术主题相关的信息,从而使读者在开始时必去阅读原专利说明书。

3) 标引

除了重新撰写发明名称和摘要外,德温特分析师还使用许多与分类有关的手工代码,并且在必要时进行深度标引,以提供强大而精确的检索数据。

①手工代码

对于包括诸如计算、通信、汽车电子装置和家用电器等领域在内的电气工程发明,根据权利要求所主张的发明新颖性以及在专利文件的正文中所描述的应用,使用一种称为“EPI手工代码(Electrical Patent Index Manual Codes)”的系统对技术做进一步分类。这是一种分级系统,旨在用作电子、电气工程专利的摘要的联机检索工具。该系统是于1980年引入的,并且从那时起一直应用于所有的DWPI工程记录。为了涵盖机械运输发明,于2006年将系统扩展,现在包括大约9000个代码。

对于化学发明,30多年来一直使用“CPI手工代码(Chemical Patents Index Manual Codes)”系统,该系统现在包括约8700个代码。根据摘要的新颖性和用途/优点部分来使用这些代码,这些代码用于描述发明的新颖特征。

②深度标引

深度标引包括化合物标引和聚合物标引,应用于包括药物、农业化学、一般化学和聚合物化学的化学专利。深度标引是一种层级结构,因此,允许确定化学结构和族性化学结构的检索。德温特分析师首先将化学结构分解成化学片段,然后再将它们“翻译”成化学代码,如图5所示:

5 深度标引示例

 翻译成化学代码:

 M2 *01* C316  D013  D019  D920  F011  F014  F553  G015  G100  H1  H181  H2  H201  H212  H5  H541  H8  J5  J521  K0  K3  K353  L9  L941  M1  M113  M210  M211  M212  M213  M231  M240  M272  M273  M281  M282  M320  M412  M431  M511  M521  M531  M540  M782  M904  M905  P520  R023  R031  R038  RIN: 01168  DCN:  RA05WZ-K,  RA05WZ-T, RA05WZ-M

 M2 *02* D011  D014  D022  D030  D140  E330  H2  H211  J5  J522  L9  L941  L999  M1  M115  M210  M211  M273  M281  M320  M412  M431  M512  M520  M530  M540  M782  M904  M905  P520  R023  R031  R038  RIN: 40336  DCN:  RA2HIY-K,  RA2HIY-T,  RA2-HIY-M

M2 *03* D011  D023  E310  H1 H181  H2  H201  H4  H402  H442 H8  M210  M211  M273  M281  M320  M412  M431  M511  M520 M530  M540  M782  M904  M905 M910  P520R023  R031  R038  RIN: 05171  05171  DCN:  R00151-K, R00151-K,  R00151-T,  R00151-M, R10188-K,  R10188-K,  R10188-T, R10188-M

 四、质量控制

 DWPI加工流程中的质量控制点如图6所示:

 

6 DWPI加工流程中的质量控制点

 五、技术支持系统

DWPI分析师使用的桌面编辑工具是称为“Pegasus(飞马)”系统,它可以将文件自动分配给DWPI分析师;允许不同编辑部门并行工作;允许分析师访问说明书全文;允许分析师选定/撤销选定图像以及操作处理图像;下拉菜单可以使得分析师分配相关的手工代码;标引屏幕允许深度标引。该系统可以监控从专利文件接收至DWPI记录形成的全过程。另外,有效性检验功能被嵌在该系统中,以阻止缺少数据字段或带有不正确数据字段的记录的上载。

(专利文献部  那英  审校)