一、通式序列的概念
在生物技术领域中,生物序列是创新的核心要素,而传统的关键词检索方法可能会忽略关键信息,增加风险。因此,专利领域常采用序列信息搜索来进行专利FTO和查新工作。
当前的搜索方法主要依赖同源性序列比对算法,在序列库中搜索相似序列以确保全面性的结果。然而,专利中存在一种特殊的序列,被称为通式序列。
通式序列解释:专利撰写人员为了进一步拓展专利的保护范围也为了给竞争对手设置搜索障碍,在撰写序列权利要求时会采取类似化学“马库什结构”的描述方式。通过在母体序列位置之间引入简并符、通配符、运算符等信息,再通过解释性文档描述这些符号具体的参数,以下我们将它称为“通式序列”。
二、通式数据在专利文献中的特点
特殊符号的使用
在专利文献中,生物序列通式数据常通过引入简并符、通配符和运算符等特殊符号来描述,这些符号并不具备生物学意义,而是用来扩展专利的保护范围并设置搜索障碍。
ST25简并符
| 简并符 | 含义 | |
| 氨基酸 | Asx | Asp or Asn |
| Glx | Glu or Gln | |
| Xaa | unknown or other | |
| 核苷酸 | r | g or a |
| y | t/u or c | |
| m | a or c | |
| k | g or t/u | |
| s | g or c | |
| w | a or t/u | |
| b | g or c or t/u | |
| d | a or g or t/u | |
| h | a or c or t/u | |
| v | a or g or c | |
| n | a or g or c or t/u, unknown, or other | |
ST26简并符
修饰碱基/氨基酸
专利文献中存在修饰氨基酸或碱基,但在序列中往往用x或者n表示,并在序列表注释中说明
例如在此专利文献中,R8和S8代表修饰后的丙氨酸,但在序列表中都以x表示,并在注释中注释出修饰信息
2. 扩展保护范围
通式序列的使用允许专利申请人在不详细披露具体序列的情况下,通过描述一类或多类可能的序列来申请专利,从而扩展保护范围。
3. 增加搜索难度
由于通式序列的存在,传统的序列同源性比对算法可能无法准确识别和比较这些序列,导致在进行专利FTO(Freedom to Operate)和查新工作中存在漏检风险。
例如,查询序列
"EVGSYPAPSDACPSDYFYCDASGRSAGGGGTENLYFQGSGGS",
在命中目标序列时,
"EVGSYXXXXX XCXXXXXXCX XSGRSAGGGG TENLYFQGSG GS"。
使用传统序列方式检索,BLAST算法的相似度仅为67%,但实际上相似度为100%。这种生物序列通过常规算法搜索会导致两种情况:要么序列无法搜索,要么由于相似度低于阈值而被排除在结果之外。无论哪种情况,都会给序列搜索人员带来不便,无法方便地与权利要求进行同源性比较,甚至会漏检关键序列信息。
4. 统计数据显示的普遍性
根据智慧芽生物序列数据库统计显示,在全球专利文献中,这种特殊的通式序列数量并不低:核酸约740万条,占总核酸数的7.12%;蛋白序列131万条,占总蛋白序列数的7.55%。
5. 解决方案的发展
目前智慧芽算法工程团队利用自研的NLP、CV、实体识别、指代消解等技术,构建了深度学习模型,用于识别和解析序列表和专利全文中的通式序列及其取代信息,并建立了通式序列检索库。智慧芽的通式序列检索解决方案通过特殊的序列比对算法,不仅能够搜索这类序列,还能返回真实的相似度,进一步降低在专利FTO和查新工作中的漏检风险。
【免责声明】发布内容来源于互联网、业内人士投稿以及微信公众号等公开资源,我们对文中观点持中立态度,文中观点不代表本平台的立场。所有文章仅供读者参考和交流使用。转载的文章版权归原作者所有,如有侵权行为,请及时与我们联系以便删除。