开发用于管理和共享复杂数据集的新开源系统
研究人员已经为科学家创建了一个新的开源数据管理系统,希望该系统可以使协作更加轻松。
简化科学家共享数据的方式
数据通常是科学的核心–研究人员跟踪速度,测量来自恒星的光,分析心率和胆固醇水平并扫描人脑中的电脉冲。
但是,通常很难与其他科学家(或与同行评审的期刊编辑或资助者)共享数据。该软件可能是专有软件,购买价格过高。一个人可能需要多年的培训才能管理和理解该软件。否则,创建软件的公司可能已经倒闭了。
一个研究小组开发了一个开源数据管理系统,科学家希望该系统能够解决所有这些问题。研究人员于2020年1月2日在《 PLOS ONE》杂志上概述了他们的系统。
“我们希望创建一种文件格式和数据集模型,以封装我们在实验室中的所有仪器上处理的大多数数据集,”俄亥俄州立大学化学教授,该论文的资深作者Philip Grandinetti说。 。“存在一个长期存在的问题,在科学家中普遍存在,您购买了价值数百万美元的仪器,而制造该仪器的公司拥有自己的专有格式,与其他任何人共享都是一个噩梦。”共享大型数据集非常棘手,部分原因是软件通常是专有软件,部分原因是文件通常太大,以至于难以通过电子邮件或基于云的服务器共享。即使将文件导出为可以共享的文件类型,重要的元数据(解释数据集实际内容的东西)也经常丢失。
他们的系统被Grandinetti及其同事称为“核心科学数据模型”,旨在轻松共享复杂的数据集,而无需占用大量带宽和硬盘空间的海量文件,并且不会丢失元数据。考虑一个包括空气温度,气压,风速和太阳通量的数据集-该系统可以处理它。或考虑来自遥远星系中恒星的光的测量结果和颜色-该系统可以处理它。
Grandinetti说:“您需要一个非常灵活的数据集,能够以一种文件格式保存所有内容,而不会丢失信息。”“所以我们的想法是,我们创建了一个我们认为足够灵活的模型来做到这一点。”
俄亥俄州立大学的团队与丹麦奥尔胡斯大学的Thomas Vosegaard教授以及法国奥尔良大学的Dominique Massiot博士合作,开发了可以在Mac或PC上运行的软件。他们将其上载到Web并使代码开源(这意味着任何人都可以查看,使用和免费下载它)。PLOS ONE中的出版物是有意的:该杂志也免费提供给任何人。
而且,研究人员希望,该系统可以是一种简单,免费的方式,可以将多种类型的数据组合到一个位置。
博士后研究员Deepansh Srivastava表示:“我们以科学家的身份研究多个数据集,而作为一名科学家本人,我希望能够从所有这些文件中获取数据,并以一种可以使用的方式将它们放在一起。”在格兰蒂内蒂(Grandinetti)的团队中。
“如果我们可以简单地将其导出为一种文件类型(作为核心科学数据文件类型),而不是寻找数据并将其从数据集中提取出来,我们将能够在一个通用系统中工作。”
参考:“核心科学数据集模型:Deepansh J. Srivastava,Thomas Vosegaard,Dominique Massiot和Philip J. Grandinetti于2020年1月2日在PLOS ONE.DOI:
10.1371 / journal.pone.0225953