Data Civilizer查找并链接散布在数字文件中的相关数据
一个名为Data Civilizer的新系统会自动在许多不同的数据表之间查找连接,并允许用户在所有表之间执行数据库风格的查询。然后可以将查询结果另存为新的,有序的数据集,这些数据集可以从数十个甚至数千个不同的表中获取信息。
大数据时代已经出现了许多分析大数据集的新技术。但是,在应用这些技术中的任何一种之前,必须对目标数据进行汇总,组织和清理。
事实证明,这是一项非常耗时的任务。在2016年的一项调查中,有80位数据科学家告诉CrowdFlower公司,他们平均花费80%的时间来收集和组织数据,而只花20%的时间来分析数据。
一个国际计算机科学家团队希望通过一个称为Data Civilizer的新系统来改变这种情况,该系统可以自动在许多不同的数据表之间查找连接,并允许用户在所有数据表之间执行数据库风格的查询。然后可以将查询结果另存为新的,有序的数据集,这些数据集可以从数十个甚至数千个不同的表中获取信息。
麻省理工学院电气工程和计算机科学教授,麻省理工学院的“受电子邮件保护”计划的教务主任萨姆·马登说:“现代组织拥有成千上万个数据集,分布在文件,电子表格,数据库,数据湖和其他软件系统上。”“ Civilizer可以帮助这些组织中的分析人员快速找到包含与其相关信息的数据集,更重要的是,将相关数据集组合在一起以创建新的统一数据集,从而合并感兴趣的数据以进行某些分析。”
研究人员上周在创新数据系统研究会议上介绍了他们的系统。该论文的主要作者是麻省理工学院计算机科学和人工智能实验室的博士后董登和劳尔·卡斯特罗·费尔南德斯(Raul Castro Fernandez)。麦登(Madden)是资深作家之一。来自柏林工业大学,南洋理工大学,滑铁卢大学和卡塔尔计算机研究所的其他六名研究人员也加入了进来。麻省理工学院电气工程与计算机科学兼职教授迈克尔·斯通布雷克(Michael Stonebraker)虽然不是合著者,但他还是这项工作的杰出贡献者。他在2014年获得了图灵奖(计算机科学的最高荣誉)。
对和排列
Data Civilizer假设要合并的数据以表格的形式排列。正如Madden解释的那样,在数据库社区中,有大量关于将数据自动转换为表格形式的文献,因此这并不是新研究的重点。同样,尽管系统的原型可以从几种不同类型的文件中提取表格数据,但使其与每种可能的电子表格或数据库程序一起使用并不是研究人员的当务之急。“那部分是工程,”麦登说。
系统从分析每个可用表的每一列开始。首先,它会生成每列中数据的统计摘要。对于数字数据,可能包括出现不同值的频率分布;值的范围;以及值的“基数”,或该列包含的不同值的数量。对于文本数据,摘要将包括该列中最频繁出现的单词的列表以及不同单词的数量。Data Civilizer还会保留每个表以及包含该表的表中每个单词的主索引。
然后,系统将所有列汇总相互比较,以识别似乎具有共同性的成对的列-相似的数据范围,相似的单词集等。它为每对列分配一个相似性评分,并在此基础上生成一个映射,就像网络图一样,该映射可追踪单个列之间以及包含它们的表之间的连接。
追踪路径
然后,用户可以编写查询,然后,Data Civilizer会即时遍历地图以查找相关数据。例如,假设一家制药公司有数百个表以其品牌名称引用一种药物,数百个表以其化学化合物引用以及少数使用内部ID编号的表。现在,假设ID号和品牌名称永远不会显示在同一张表格中,但是至少有一张表将ID号和化合物链接在一起,而另一张表将化合物和品牌名称链接在一起。使用Data Civilizer,对品牌名称的查询还将从仅使用ID号的表中提取数据。
Data Civilizer识别出的某些链接可能是虚假的。但是用户可以保留不适合查询的数据,而保留其余数据。修剪数据后,用户可以将结果另存为自己的数据文件。
这家制药公司的高级信息学分析师Iain Wallace表示:“ Data Civilizer是一项有趣的技术,可能会帮助数据科学家解决由于数据可用性日益提高而引起的重要问题-确定要分析的数据集。”默克“组织越大,这个问题就越严重。”
“我们目前正在探索如何在各种化学生物学数据集之上使用Civilizer作为协调层,” Wallace继续说道。这些数据集通常将化合物,疾病和目标联系在一起。一个用例是确定哪个表包含有关特定化合物的信息,以及在其他相关数据集中可以找到有关该化合物的其他信息。Civilizer允许在所有列上进行全文搜索,然后自动识别相关列,从而为我们提供了帮助。通过使用Civilizer,我们应该能够轻松添加其他数据源并非常快速地更新我们的分析。
纸:数据文明系统