将大数据整理为实时 可操作的情报

互联网2020-08-02 09:19:42
导读社交媒体,相机,传感器等产生的大量数据可能使分析师不知所措,无法筛选出有意义的,可操作的信息,从而为决策者(例如政治领导人和战地

社交媒体,相机,传感器等产生的大量数据可能使分析师不知所措,无法筛选出有意义的,可操作的信息,从而为决策者(例如政治领导人和战地指挥官)提供对安全威胁的响应。

桑迪亚国家实验室(Sandia National Laboratories)的研究人员正在通过开发科学以几乎实时地从数据中收集见解来减轻这种负担。

桑迪亚计算机科学家兼项目负责人田马说:“传感器和社交媒体产生的数据量正在蓬勃发展,每天生成的数据约为2.5亿亿字节(即25亿亿字节)。”“过去两年中生成了大约90%的数据,比我们要分析的数据还要多。情报社区基本上不堪重负,问题在于您最终将大量数据放在磁盘上,这些磁盘可能被忽视。”

桑迪亚的研究人员与学术联盟合作伙伴伊利诺伊大学厄本那香槟分校的学生合作,开发了用于流数据源的分析和决策算法,并使用大数据工具和计算将其集成到几乎实时的分布式数据处理框架中Sandia的资源。该框架从多个来源获取不同的数据,并生成可以几乎实时采取行动的可用信息。

为了测试该框架,研究人员和学生们使用了芝加哥交通数据,例如图像,集成传感器,推文和流文本,以成功测量交通拥堵并为芝加哥通勤者建议绕过它的更快的行驶路线。桑迪亚计算机科学家兼项目负责人鲁迪·加西亚(Rudy Garcia)说,研究小组之所以选择芝加哥交通示例,是因为输入的数据具有与通常出于国家安全目的观察到的数据相似的特征。

淹没在数据中

桑迪亚计算机科学家兼研究团队成员劳拉·帕特里齐(Laura Patrizi)在2019年美国地理空间情报基金会(GEO)的GEOINT研讨会上的一次演讲中说:“我们甚至没有考虑就创建数据。”“当我们将手机放在口袋里或在推特上谈论可怕的交通时,我们的手机会跟踪我们的位置,并可以在推特上附加地理位置信息。”

为了利用这些数据雪崩,分析师通常使用大数据工具和机器学习算法来查找和突出显示重要信息,但该过程将基于记录的数据运行。

马云说:“我们希望看到可以用来自多个数据源的实时数据来分析什么,而不是可以从挖掘历史数据中学到什么。”“可操作的情报是将数据分析用于近实时决策的下一层数据分析。这项研究的成功将对许多对时间要求严格的国家安全应用产生重大影响。”

建立数据处理框架

该团队将分布式技术集成到一系列数据处理管道中,这些数据处理管道吸收,整理和索引数据。科学家们对数据进行了整理,规定了管道应如何获取和清理数据。

“我们提取的每种数据类型都有自己的数据模式和格式,”加西亚说。“为了使数据有用,必须首先对其进行管理,以便可以为事件轻松发现它。”

在Sandia的计算机上运行的Hortonworks Data Platform被用作数据处理和分析管道的软件基础结构。在Hortonworks中,该团队为每个数据管道开发并集成了Apache Storm拓扑。然后,将经过整理的数据存储在企业搜索引擎和数据库Apache Solr中。PyTorch和Lucidwork的Banana用于车辆目标检测和数据可视化。

寻找正确的数据

加西亚说:“要导入大量数据是困难的,但是要找到您真正想要的信息则更具挑战性。”“例如,在项目进行过程中,我们会看到诸如“空中交通管制使我们在中途停留最后一个小时一直在地面上”之类的推文。交通在推文中,但与高速公路交通无关。

为了确定芝加哥高速公路上的交通拥堵程度,理想情况下,该工具可以使用多种数据类型,包括显示双向流量的交通摄像头,关于事故的地理位置推文,测量平均速度的道路传感器,区域的卫星图像以及桑迪亚计算机科学家兼研究小组成员Forest Danford表示,交通标志可以估算出各个里程碑之间的当前旅行时间。

丹福德说:“但是,我们还会收到大量不良数据,例如难以读取的网络摄像机图像,而且很少会遇到许多不同的数据类型,这些类型在时间和空间上紧密地并置在一起。”“我们需要一种机制来学习超过9000万起事件(与芝加哥交通相关),我们已经观察到能够根据不完整或不完善的信息做出决策。”

该团队通过从标记图像和推文中提取的特征以及与时间和空间数据相对应的其他事件进行训练,从而对以人脑为模型的合并计算机系统进行了训练,从而增加了交通拥堵分类器。丹福德说,训练有素的分类器能够在任何给定的时间点和位置,根据运营数据生成交通拥堵预测。

Minh Do和Ramavarapu Sreenivas教授及其UIUC的学生致力于通过网络摄像机成像进行实时对象和图像识别,并根据各种数据源开发了可靠的路线规划流程。

斯里尼瓦斯说:“为切实可行的情报发展有说服力的科学要求我们努力应对基于信息的动力。”“这里的圣杯是解决规范问题。在构建能够使我们获得所需东西的东西之前,我们需要先了解我们想要的东西。这比看起来要难得多,而这个项目是了解确切内容的第一步。我们希望拥有。”

展望未来,桑迪亚国家实验室的团队正在传输芝加哥到了其他政府项目的架构,分析和教训,将继续进行调查分析工具,进行改进的实验室的对象识别模型和工作产生有意义的,可操作的情报。

“我们正在努力使数据发现,访问和使用,”加西亚说。“如果我们能做到这一点,通过这些大数据架构,那么我认为我们正在帮助。”

免责声明:本文由用户上传,如有侵权请联系删除!