(二)分析数据库 分析数据库是为统计分析衍生新建的数据库,用于产生和支持临床总结报告等文件中的统计分析结果。分析数据库中一般包含原始数据及基于原始数据按照一定规则衍生的数据,如对缺失数据填补后的数据等。如果申办方参照 CDISC 标准递交数据,则可将分析数据标准模型(Analysis Data Model,ADaM)数据库视为分析数据库。 分析数据库通常包含多个分析数据集。构建分析数据集时,可能会将收集和衍生的数据(来自各原始数据集或其它分析数据集)合并到一个数据集中,构建时应遵循以下原则:①用于支持统计分析的分析数据集,其内容与来源必须清晰。②分析数据集必须具备可追溯性,数据衍生的具体规则应在相应的数据说明文件中加以详细说明。③分析数据集结构和内容应满足只需要很少的编程即可进行统计分析。 分析数据库应包含分析时所需的所有变量,包括衍生变量,且所有衍生变量均应能通过原始数据库及其它支持性数据文件生成。分析数据集通常以“adxxxxxx”命名,分析数据集的命名应尽量与原始数据集保持对应,如:adcm、adae、adlb 等。 受试者水平分析数据集(命名为 adsl)是必不可少的一个分析数据集。在该数据集中,每一受试者应仅有一条记录,内容应包括但不限于人口学、重要的基线特征/分层因素、治疗组、预后因素、重要日期、分析人群划分等信息。 对于有些终点(如某些量表评分),从原始数据集到可用于最终统计分析的分析数据集需要经过一系列衍生过程,为方便最终分析数据集创建而衍生的中间变量/数据集必要时也应一同包含在分析数据库中。 (三)数据说明文件 递交的原始数据库和分析数据库必须有相应的数据说明文件。数据说明文件是一份用来描述递交数据的文件,至少应包含递交数据库中各数据集名称、标签、基本结构描述及每一数据集中各变量的名称、标签、类型、来源或衍生过程。 数据说明文件是监管机构审评时准确理解递交数据内容最重要的文件之一。申办方应确保每个变量的编码列表和来源都有清晰的定义,并且易于查找。如果使用外部词典,需要在数据说明文件中指明所用的词典及版本。需要通过数据说明文件建立起数据间良好的可追溯性(如:原始数据集与 CRF、分析数据集与原始数据集之间),以便于监管机构的审阅。申办方需要在数据说明文件中提供相关细节,尤其是和衍生变量相关的详细说明,必要时可使用关键程序代码辅助说明。 数据说明文件一般为可扩展标记语言(Extensible Mark-up Language ,
XML ) 或 便 携 文 档 格 式 (
Portable Document Format,PDF)文件。如递交 XML 格式数据说明文件,对应的可扩展样式表语言(Extensible Stylesheet Language,XSL)文件也应一并递交。 (四)数据审阅说明 为了帮助审评人员更好地理解与使用递交的数据,鼓励申办方递交数据审阅说明。数据审阅说明是对数据说明文件的进一步补充,其内容包括但不限于研究数据使用说明、临床总结报告与数据之间的关系、研究文档(如试验方案、统计分析计划、临床总结报告等)中部分关键信息、所递交程序代码的使用说明、数据集所用编码(如 utf-8、euc-cn 等)及其它特殊情形说明等。数据审阅说明并不旨在取代数据库的数据说明文件,而是通过文档描述的方式来帮助审评人员更准确、高效的理解与使用所递交的数据库、相关术语、程序代码及数据说明文件信息等。数据审阅说明应采用 PDF 文件。 (五)注释病例报告表 注释病例报告表是在空白 CRF 的基础上,对采集的受试者数据(电子化的或者纸质的)信息单元(即字段信息)与递交原始数据集中对应的变量或变量值之间映射关系的具体描述。aCRF 文件应采用 PDF 文件。 实践中,CRF 中可能会收集一些递交数据库中没有的数据内容,这类数据应在 aCRF 上明确标注为“不递交”(“NOT SUBMITTED”),并在数据审阅说明中阐明不递交这些数据的理由。 (六)程序代码 申办方需要递交的程序代码包括但不限于:分析数据集中衍生变量的衍生过程、疗效指标分析结果的生成过程等。申报资料中递交的程序代码应当易懂、可读性强,建议提供充分的注释、避免外部(宏)程序调用。程序代码一般采用 TXT 文件。 三、临床试验数据相关资料的格式 (一)便携文档格式 便携文档格式(PDF)是一种开放文档格式,其独立于应用软件、硬件和操作系统。申报递交资料中遵循国际人用药品注册技术要求协调会(International Council for Harmonization of
Technical Requirements for Pharmaceuticals for Human Use,ICH
) 电 子 通 用 技 术 文 档 (
Electronic Common Technical Document,eCTD)格式要求的其它文档可采用 PDF 文件。建议使用 PDF 1.4 以上的版本进行文档的递交。所有 PDF 文件都应以.pdf 作为文件扩展名。 (二)可扩展标记语言格式 可扩展标记语言(XML)是由国际万维网协会(World Wide Web Consortium,W3C)定义的一种数据交换语言。它可以被任何文本编辑器打开、编辑和创建,用来传输和存储数据。XML 格式文件能够便捷地在不同系统之间进行信息交互。 所有 XML 格式文件必需以.xml 作为文件扩展名。 (三)纯文本格式 纯文本格式文档(TXT)具有格式简单、体积小、存储简单方便等诸多特点,也是计算机及许多移动终端支持的通用文件格式。所有 TXT 文件都应以.txt 作为文件扩展名。 (四)研究数据传输格式 申报资料中的数据集通常采用 SAS 数据传输格式(SAS Transport Format,简称 XPT)。一个 XPT 文件对应一个数据集,数据集名称需要与 XPT 文件名保持一致,其文件后缀名统一为.xpt。例如不良事件数据集 ae.xpt,既往与合并用药数据集cm.xpt 等。建议采用 XPT 第 5 版本(简称 XPT V5)或以上版本作为数据递交格式。申办方应说明所用编码(如 utf-8、euccn 等),以避免所递交的数据集出现乱码的情形。 (五)数据集拆分 当数据库中单个数据集因存储大小不满足申报资料相关要求而需要拆分时,可仅递交拆分后的数据集。在数据审阅说明中,应详细说明数据集的拆分规则及合并的详细步骤,以确保审评人员能够生成与申办方拆分前相同的数据集。 (六)数据集名称、变量名称及变量长度 对数据集名称和变量名称要求如下: 数据集名称只能包含小写英文字母和数字,并且必须以小写字母开头。且数据集名称的最大长度为 8 个字节。 变量名称只能包含大写英文字母、下划线和数字,并且必须以字母开头。且变量名称的最大长度为 8 个字节。 每个字符型变量的长度,应该设置为在此研究所有数据集里该变量的最大实际变量值长度,有效控制文件的大小。 (七)数据集标签及变量标签 为了便于审阅,数据集标签和变量标签应使用中文,建议长度不超过 40 字节,必要时可以包含英文字符、下划线或数字,但不能以数字开头,另外,也不能包含下列情形: ●不成对的半角或全角单引号、双引号 ●不成对的半角或全角括号 ●特殊字符(如’>’、’<’) |