NDA数据协调方法

 

整体方法

NIMH数据档案库(NDA)遵循研究者驱动的方法,以协调由数百个主要研究心理健康以及物质和酒精使用障碍的不同实验室收集的个人水平数据。 NDA数据协调方法是可扩展的,目前可容纳表型,临床,行为,神经影像,神经信号记录和组学数据。 该方法旨在容纳来自任何人类疾病研究领域的大多数研究数据。

保密协议 的数据字典是一个包含2500多个表的数据库,每个表都称为数据结构。 数据结构表示单个度量,数据收集工具,评估或元数据清单,并包含一个或多个研究人员提交的数据。 每个数据结构都是由研究人员向NDA提交数据后创建的。 

随着新项目添加变量(数据元素),创建别名和更新描述,NDA数据结构会定期更新。所有更改都记录在更改历史记录中。提交给NDA的所有数据都将提交给这些结构之一,并使研究人员可以轻松地查询整个NDA数据库。 用户可以下载数据收集模板,以简化数据收集并提交给NDA。

 

所需数据元素

所有NDA数据结构都包含5个必需的数据元素,这些元素用于合并跨结构的数据,并促进跨所有结构的质量保证(QA)检查和查询。 NDA不允许这5个必需数据元素的缺失值或NA值。

第一个必需的数据元素是全局唯一标识符(GUID)。 当NDA是国家自闭症研究数据库(NDAR)时,由研究联盟开发的该元素称为NDAR GUID。 GUID允许NDA在不处理任何个人身份信息的情况下链接跨不同研究的科目。 有关GUID生成的技术详细信息,请访问: //nda.gratlusbc.net/guid.

保密协议 的必需数据元素:

  1. Subjectkey –主题的NDAR GUID;它必须为NDAR GUID格式,并且可以表示真实的GUID或伪GUID。真正的GUID比伪GUID更可取,并且伪GUID可以追溯地和永久地提升为真正的GUID。
  2. Src_subject_id –研究的内部主题标识符;此ID不应包含任何个人身份信息(例如姓名,DOB,缩写)
  3. 访谈年龄–从受试者收集数据时的年龄(以四舍五入为单位)
  4. Interview_date –从主题收集数据的日期,格式为MM / DD / YYYY
  5. 性别–受试者出生时的性别;当前NDA仅支持此数据元素的M / F值。

 

数据结构创建

如果不存在与数据收集工具匹配的现有数据结构,则将数据提交给NDA集合(一个研究项目的数据的虚拟容器)的研究人员可以创建新的数据结构。 数据提交者在其NDA集合的“预期数据”选项卡中启动结构创建过程。 NDA的策划小组审核了请求,并建议了可以容纳数据的现有结构或创建了新的数据结构。 数据提交者对数据统一决策做出最终决定。

如果创建了新的数据结构,它将包含由原始评估/仪器创建者或发布者定义的所有项目级别的问题(元素)和分数(评分算法的输出或摘要元素)。 然后将该结构发布到NDA数据字典中,以便其他研究人员可以找到它并将其用于从他们自己的研究中收集数据,并将这些数据提交给NDA数据库中的同一表。

 

数据结构扩展

如果NDA具有可以容纳新收集的数据的现有结构,则策展团队将提供文档,以显示数据提交者描述的结构中的大多数数据元素与现有结构中的数据元素如何相同。如果研究人员同意,NDA将向现有结构中添加新的数据元素,以容纳要提交的所有数据。 

保密协议 数据结构通常包含上下文数据元素,包括版本,访问号,响应者或管道。 这有助于规范化使用同一工具但在不同环境中收集的数据,同时始终向最终用户提供用于决策的环境信息。

除非发布或重新建模现有评估或工具的新版本,否则NDA不会创建现有数据结构的新版本。 

 

数据元素映射,别名,翻译和约束

制图

保密协议 数据字典包含超过150万个数据元素。 数据元素不是由其名称定义的,因为大多数NDA元素名称并不遵循任何形式的本体,而只是字母和数字的组合。 

保密协议 通过元素定义中的三个字段的组合来定义单个数据元素:元素描述,值范围和注释。 元素描述可以包含有关受访者(例如孩子或父母)和值范围的信息,注释可以包含有关缺失或未答复数据的编码方式的信息。 NDA使用这种方法在多个数据结构之间映射数据元素。 创建新结构或使用新元素扩展现有结构时,如果数据元素已经存在(由这三个字段定义),则将在结构中重复使用它。 

随着新研究人员扩展NDA数据字典,元素描述,值范围和注释会定期更新。 这些更新在给定数据元素的所有数据结构中传播。 当数据提交者请求对现有元素进行实质性更改时,NDA将创建一个新的数据元素。

别名

许多数据提交者确实根据其数据管理需求使用了本体或其他命名约定。 数据提交者在“预期数据”流程中提供这些别名。 NDA在NDA数据字典中创建数据元素别名,并将别名与特定的NDA集合相关联。 数据策划人将向数据提交者提供更新的数据提交模板,然后数据提交者可以在不更改元素名称的情况下以NDA数据结构提交数据。 数据提交者应在“验证工具”中选择“使用自定义范围”,以便使用别名进行提交。

翻译

数据提交者可以对数据元素值范围使用不同的编码。 NDA可以创建将数据提交者的值范围映射到NDA值范围的转换。 翻译是特定于NDA集合的。 数据提交者可以使用翻译,而不必重新编码数据即可提交。 转换并非总是可能的,因为它们需要在值范围之间直接映射。

数据库约束

保密协议 数据存储在Oracle数据库中,这施加了一些技术约束:

  1. 元素大小-30个字符,不能有空格,不能以数字开头,除下划线(_)之外不能有特殊字符
  2. 别名大小– 100个字符,无空格
  3. 单个结构只能包含995个元素。 NDA创建多部分结构来管理此限制。
  4. 4000个字符–文本元素的大小限制