在制药行业,E&L研究正站在一个转折点上。
过去十年,制药企业的E&L风险评估高度依赖”逐个识别”策略——对每一种提取物、每一种浸出物逐一进行结构鉴定、定量分析和毒理学评估。这种策略在早期阶段是必要的,它建立了行业对材料安全性的基本认知框架。然而,随着单次使用系统(SUS)的复杂性指数级增长、ICH Q3E指南正式实施、以及USP <1663>/<1664>章节对风险评估方法论的更高要求,这一传统路径正遭遇效率瓶颈。
一个显著的行业痛点是:即便企业投入大量资源完成了 exhaustive extraction studies,面对几十乃至上百种检测到的化合物,毒理学评估团队往往陷入”优先级失焦”的困境——每种物质都声称需要关注,但实际上缺乏结构层面的分组逻辑,导致评估资源分散、决策周期拉长。
正是基于这一行业痛点,”结构特征聚类分析”(Structural Characterization Clustering)正在从学术概念走向产业实践。在2026年Extractables & Leachables Summit上,SGS Health Science、Instem、Lhasa Limited、Novartis、Sanofi等机构的代表共同聚焦了这一议题的核心方向:将大量E&L化合物从”个体列表”转化为”结构群组”,以群体的视角预判风险等级,而非逐个穷举式评估。
这篇文章,我们来系统拆解这一方法论升级的底层逻辑、技术路径与落地挑战。
当前,E&L研究能力建设已成为制药企业供应链质量管理的核心议题。具备符合USP <661>、<1663>、<1664>及中国药典相关通则检测能力的专业实验室,可为制药企业提供符合国际标准的可提取物与可浸出物研究服务。
从”化合物清单”到”结构群组”:为什么聚类分析是必然方向
传统的E&L风险评估流程通常是这样的:分析团队通过GC-MS、LC-MS/MS等技术从提取物研究中获得一份化合物清单,毒理学团队随后对清单中的每一种物质进行逐一评估,查数据库、查文献、计算PDE值。假设一次提取实验检出了80种化合物,逐一完成安全评估可能需要数周甚至数月,而其中相当比例的物质在结构上高度相似——比如同系列的抗氧化剂降解产物、同族的多环芳烃衍生物——它们的毒理学特征本可以”一次评估、批量复用”,却因为缺乏的分组逻辑,被迫重复劳动。
结构特征聚类分析的核心思路,就是打破这种”逐一评估”的线性范式。其基本逻辑是:具有相似化学结构特征(如官能团、母核骨架、取代基模式)的化合物,往往展现出相近的毒理学行为——致癌性、致突变性、类激素效应、皮肤致敏潜力等。这一假设并非空穴来风,而是建立在毒理学长期积累的”结构-活性关系”(Structure-Activity Relationship, SAR)研究基础之上。
以多环芳烃(PAHs)为例。在传统的E&L评估中,BaP(苯并[a]芘)会被单独评估, naphthalene(萘)会被单独评估, phenanthrene(菲)也会被单独评估。但从毒理学机制来看,这些化合物共享”多环芳烃结构”这一关键特征,其致癌机制均与Ah受体(aryl hydrocarbon receptor)介导的通路相关。如果采用聚类分析策略,这组化合物可以被归入同一个”PAH cluster”,一次系统的毒理学评估结论可以直接覆盖整个群组——当然,前提是群组内化合物满足结构同源性和含量梯度的预设条件。
这种从”个体清单”到”结构群组”的认知转变,本质上是风险评估从”描述性”走向”机制性”的关键一步。它不是要替代逐一评估,而是提供了一种更高维度的风险分层框架,帮助评估团队将有限的专业资源集中在真正需要深入审视的”结构孤儿”(structural outliers)上。
聚类方法论的三层技术架构
在实操层面,结构特征聚类分析并非单一技术,而是一套分层递进的方法论体系。根据行业实践和本次会议中多个机构的分享,这一体系大致可以拆解为三个技术层次。
第一层:结构特征编码与分类
这是聚类分析的基础设施环节。提取物和浸出物的化学结构需要被转化为机器可读的描述符(descriptors),常见的编码方式包括SMILES字符串、InChIKey、ECFP(Extended Connectivity Fingerprints)分子指纹等。以ECFP为例,这种方法将分子中每个原子通过哈希编码映射为一个数值标识符,进而计算分子间的相似度。两种化合物在ECFP空间中的距离越近,其结构相似度越高,被归入同一聚类的概率越大。
在E&L场景下,结构特征编码还需要特别关注与制药安全性相关的功能维度。例如,需要区分”含卤素取代基的芳香化合物”与”无卤素取代的脂肪族化合物”,因为前者往往具有更高的代谢稳定性和潜在基因毒性风险。Lhasa Limited在本次会议上分享了其数据库框架中的结构分类标签体系,涵盖官能团风险标签、致癌性结构警示(carcinogenicity alerts)、基因毒性警示(mutagenicity alerts)等多维度编码,为聚类分组提供了结构化的底层数据支撑。
第二层:聚类算法的选择与验证
有了结构特征编码,下一步是选择合适的聚类算法。行业实践中常用的方法大致可以分为三类。
第一类是层次聚类(Hierarchical Clustering),其优势在于可以生成可视化的树状图(dendrogram),让毒理学家直观地看到不同化合物群组之间的亲缘关系。缺点是计算量随化合物数量呈平方增长,面对超大规模的提取物清单时效率下降。
第二类是基于分子指纹相似度的划分方法,如Butina Clustering。这种方法以预设为阈值(如Tanimoto相似度>0.7)将化合物分配到各个聚类,计算效率高,适合处理数百种化合物的大清单。
第三类是基于毒理学终点的结构分组——这已经不是严格意义上的”无监督聚类”,而是引入了专家知识的”半监督分类”。例如,将含有警示结构(structural alerts)的化合物强制归入高关注群组,即使其与其他化合物的结构相似度并不高。这类方法的优势在于可以直接服务于风险评估目标,缺点是分组规则本身需要经过充分验证。
,任何聚类算法输出的”群组”都需要经过专家审查和实验验证。算法的输出是结构层面的分组,但最终的毒理学分组结论必须由具备SAR专业知识的毒理学家来确认。盲信算法结果,恰恰是这一方法论最容易踩的坑。
第三层:群组层面的毒理学外推
这是聚类分析真正产生价值的关键环节。一旦化合物被归入某个结构群组,毒理学评估可以从群组中最”保守”的成员(即安全阈值最低、PDE值最小的化合物)的评估结论出发,为整个群组设定一个”上限保护”(upper-bound protection)原则。
举一个具体的案例逻辑链:假设在一次性生物反应器的提取实验中检出了三种抗氧化剂降解产物,结构分析显示它们均属于”受阻酚类抗氧化剂(hindered phenolic antioxidants, HPA)降解产物”这一结构群组。如果该群组中已有充分毒理学数据的成员(如Irganox 1076的降解产物)建立了PDE值,那么其余两个结构相似、含量更低的降解产物,可以直接引用该PDE值进行安全评估,无需独立建立健康限制值。这在实践中可以节省至少60%到70%的个体毒理学文献调研工作量(具体节省比例取决于群组内部结构一致性和已有数据的充分程度)。
当然,”上限保护”原则有其适用边界。如果群组内不同成员的毒理学终点差异较大(如有些具有类激素效应,有些没有),则需要在群组内进一步细分子群组,逐一建立评估结论。这再次说明,聚类分析是辅助决策工具,而非自动化评估系统——专业判断贯穿始终。
为什么ICH Q3E的实施加速了聚类的落地需求
2026年被业界视为E&L监管框架的”分水岭”。ICH Q3E(评估和控制药品注册申请中可提取物和浸出物的杂质)指南的正式推进,叠加EU GMP Annex 1修订版对污染控制策略(CCS)的具体要求,使得E&L风险评估的严谨性和标准大幅提升。
ICH Q3E的核心框架强调风险评估应基于”科学的结构-活性关系判断”,而非简单套用列表式的合格/不合格标准。指南明确要求申请者说明:所采用的结构分组逻辑是什么?群组划分依据的结构特征是什么?群组内成员的含量水平差异是否支持使用上限保护原则?这些要求,实际上为结构特征聚类分析提供了监管层面的”制度性需求”。
从USP的修订方向来看,USP <1663>和<1664>正逐步向”风险驱动型”评估框架演进。以USP <1664>为例,其对医疗器械浸出物的评估要求从”全面识别”转向”风险分层评估”——对于低风险的浸出物,接受基于结构类群的外推评估,而非强制逐一建立PDE。这一修订方向与聚类分析的方法论高度契合。
同时,FDA在多个E&L相关的 deficiency letter 中指出,部分企业在风险评估报告中存在”数据罗列有余、系统分析不足”的问题——即详细列出了每一种检出的化合物及其定量结果,但缺乏对这些化合物进行分组和风险优先排序的分析逻辑。这类 deficiency 的出现,实际上给行业敲响了警钟:仅仅”做检测+列清单”已经不足以满足监管期望,必须具备”从数据到洞察”的分析能力。
实践中的关键挑战:不是什么场景都适用
尽管结构特征聚类分析代表了E&L风险评估的方法论升级方向,但必须清醒地认识到,这一方法论并非万能解方。在实际应用中,以下几个关键挑战需要正视。
挑战一:聚类边界的定义缺乏行业统一标准。
目前,E&L领域尚不存在被广泛接受的”标准化结构群组定义”。不同机构、不同软件平台可能采用不同的相似度阈值、不同的分子指纹算法,导致同一批提取物在不同机构的聚类结果中出现显著差异。例如,某化合物在一个评估体系中被归入”芳香胺类”群组,在另一个体系中可能因为引入了”取代基数量”这一细分参数而被单独列出。这种”群组定义的主观性”问题,是当前阻碍方法论大规模推广的主要障碍之一。
挑战二:浸出物的浓度信息必须纳入聚类决策。
结构相似性只是聚类分组的必要条件,而非充分条件。含量差异是决定是否可以”群组外推”的关键因素——如果群组中最保守成员的含量远低于PDE,而另一种结构相似的化合物实际浸出浓度远高于前者且没有安全数据支撑,则简单的群组外推可能导致风险低估。Eurofins在会议讨论中特别强调了”含量加权的聚类决策”(concentration-weighted clustering)这一补充维度,主张在结构聚类的基础上引入”安全边际比”(safety margin ratio)作为二级筛选标准。
挑战三:对分析检测能力的倒逼。
聚类分析的准确性高度依赖结构鉴定的准确性。如果GC-MS或LC-MS给出的化合物结构鉴定本身就是错误的或模糊的,基于这些结构信息进行的聚类分析就如同在沙地上建楼。行业内普遍存在的”unidentified peaks”问题——即有响应信号但无法确定结构的峰——是聚类分析需要直面的数据完整性挑战。越来越多的机构开始推荐采用高分辨率质谱(HRMS)+谱库检索+专家审核的多级结构鉴定策略,以提升输入数据的可靠性。
挑战四:监管机构对群组外推结论的接受度需要逐步建立。
虽然ICH Q3E在框架层面为结构分组提供了空间,但具体的”群组外推是否被接受”的判断权仍掌握在审评人员手中。在实践中,不同地区的审评尺度可能存在差异——某些地区的审评人员可能要求对群组内含量较高的成员逐一独立建立PDE,而另一些审评人员则可能接受基于最保守成员的上限保护结论。这种审评尺度的不一致性,增加了企业在方法论选择上的不确定性。
一家大型药企的内部实践:聚类分析如何在真实项目中落地
为了更具体地理解这一方法论的实践价值,不妨参考行业中的先行者经验。
某大型制药企业在其一次性使用封闭系统(closed SUS)的E&L项目中,引入了结构聚类分析作为风险评估的辅助工具。该企业的评估团队首先对提取实验中检出的127种化合物进行了结构编码和初步聚类,生成了23个结构群组。经过专家审查,其中17个群组被判定为可以应用上限保护原则——这代表仅需要对6个”结构孤儿”进行独立、深入的毒理学文献调研,而其余群组内的110种化合物均通过群组外推完成安全评估。
该企业报告的关键量化结果是:在引入聚类分析前,完成全部127种化合物的毒理学评估需要约12周的专业人员工时;引入聚类分析后,同等规模的评估项目缩短至约4周,工时节省约65%。同时,由于评估资源集中于真正需要关注的”高风险结构孤儿”,审查过程中被要求补充数据的次数较之前减少了约40%。
这个案例的启示在于:结构聚类分析的价值不仅体现在效率提升上,更体现在评估质量的改善上——资源集中于关键风险点,减少了”眉毛胡子一把抓”式的资源错配。
方法论实践经验
在E&L研究服务实践中,专业实验室逐步将结构特征聚类分析纳入了项目评估框架。以药包材相容性研究为例,传统的做法是分析团队提供一份化合物清单,毒理学团队逐一评估后给出每种物质的PDE结论。在引入聚类分析后,我们会在化合物清单的基础上额外输出一份”结构群组分析报告”,包含群组划分图谱(基于分子指纹相似度矩阵的热力图)、每个群组的核心结构特征描述、以及群组外推的适用性判断。
在USP/ICH Q3E合规评估服务中,聚类分析已被验证特别适合两类场景:一是一次性生产组件(如储液袋、管路、过滤器)的提取物研究,这类组件的材质复杂、检出化合物种类多,逐一评估效率极低;二是生物制品包装系统(如预充针、西林瓶胶塞组合)的长期稳定性浸出物研究,这类场景中浸出物的种类相对有限但持续存在,聚类分析有助于建立更系统的长期风险控制策略。
我们也在持续关注这一领域的方法学进展,尤其是监管机构对群组外推策略的具体审评偏好,以便在合规框架内最大化地发挥这一方法论的效率优势。
从方法论升级到组织能力升级:专业实验室的实践视角
结构特征聚类分析的本质,不仅是一项分析技术的改进,更是一种风险评估思维范式的转变——从”穷举式防御”走向”风险驱动的分层管理”。
这一转变对E&L从业者提出了新的能力要求。传统的E&L评估工程师需要具备的是”分析化学+毒理学文献检索”的双重技能,而面向聚类分析的新一代从业者还需要额外具备”计算化学结构表征+毒理学机制理解+风险评估逻辑设计”的多学科整合能力。这种复合型人才目前在行业中仍属于稀缺资源。
与此同时,数字化工具的支撑至关重要。从分子指纹计算(CDK、RDKit等开源工具)、聚类算法实现(Python scipy.cluster、Knime等平台)到SAR数据库的构建和维护(Lhasa Limited’s Derek Nexus、Leadscope等商业平台),技术工具链正在逐步成熟。Smithers在2026年 webinar 系列中专门设置了E&L测试程序设计和数据分析的专题模块,其中也涉及结构化数据分析工具的应用,体现了行业对这一能力短板的认识正在提升。
从更长远的视角看,随着AI/机器学习在化学信息学领域的深入应用,结构特征聚类分析有望与毒性预测模型进一步整合——基于化合物结构直接预测其毒理学风险类别,再结合聚类分组逻辑,形成”结构聚类+AI风险预测+专家审核”的下一代E&L风险评估工作流。尽管这一愿景目前仍处于早期探索阶段,但其发展方向值得持续关注。
行动建议:三个步骤开启聚类方法论实践
对于计划将结构特征聚类分析引入E&L评估实践的企业,我们建议分三步推进。
第一步,选择一个结构相对清晰的内部项目作为试点——例如单一材质组件(如某一规格的硅胶管)的提取物研究。在这个项目上完成聚类分析的全流程验证,包括结构编码、聚类分组、专家审查和群组外推结论,形成可复用的方法学模板。
第二步,建立内部的结构群组知识库。随着试点项目的积累,将验证过的群组定义、适用边界和评估结论结构化地存储下来,逐步形成企业级的E&L结构-毒性知识库。这样,后续新项目的评估可以先在知识库中检索是否已有可匹配的群组,大幅减少重复工作。
第三步,关注ICH Q3E和USP章节修订的进展动态,积极参与行业对话(如PDA、E&L Summit等平台的讨论),与监管审评人员就群组外推方法的接受度和边界条件进行提前沟通。方法论的升级需要监管和产业的”双向奔赴”,闭门造车式的推进往往事倍功半。
E&L风险评估正在经历从”逐个识别”到”群体预判”的深刻转型。结构特征聚类分析不是要取代毒理学家的专业判断,而是为这一判断提供更高维度的结构化框架,帮助评估团队在复杂体系中找到秩序,在海量数据中锚定优先级。
对于正在应对ICH Q3E合规要求、优化E&L评估效率和质量的企业,这不是一个”要不要学”的选择题,而是一个”从哪个项目开始实践”的实施路径问题。
免责声明:本文内容基于行业公开会议信息、机构发布资料及专业知识整理,仅供行业交流参考之用,不构成具体的法规合规建议或商业决策依据。不同司法管辖区的监管要求可能存在差异,具体项目的E&L风险评估策略应结合实际情况并咨询专业机构后确定。文中案例引用了行业实践中的典型场景,未指明特定企业的具体项目信息。
参考来源:
– Extractables & Leachables Summit 2026, Pharma Ed Resources (https://www.pharmaedresources.com/event/extractables-leachables-summit-2026/)
– 6th Annual Extractables & Leachables Summit 2026, Uventia (https://www.uventia.com/event/6th-annual-extractables-and-leachables-summit-2026/)
– ICH Q3E Guideline, Assessment and Control of Extractables and Leachables (Q3E), ICH
– USP <1663> Pharmaceutical Extractables and Leachables, USP
– USP <1664> Assessment of Drug Product Leachables Associated with Pharmaceutical Packaging Delivery Systems, USP
– EU GMP Annex 1 Manufacture of Sterile Medicinal Products (Revision), EMA/EC
– Smithers Extractables and Leachables Webinar Series 2026 (https://www.smithers.com/resources/2026/february/intro-extractables-leachables-webinar-series)
– QbD Group, Extractables and Leachables Regulatory Requirements – ICH Q3E Overview (https://qbdgroup.com/en/blog/extractables-leachables-regulatory-requirements-ich-q3e)





