Bubble Rap论文2011见刊,现在已经被引用1000+次。其使用的数据集是Infocom05, Hong-Kong, Cambrige, Infocom06, Reality。本文介绍了这些数据集的下载、数据格式以及分析其所得到结果的一些出入。
1. Haggle项目
1.1 数据集下载
依论文Bubble Rap描述,数据集Infocom05, Hong-Kong, Cambrige, Infocom06都属于Haggle项目。但在CRAWDAD官网,只能找到:(下载数据集,需要加入CRAWDAD社区,点这里。收到的邮件包含账号和密码可用于下载)
the cambridge/haggle/imote/intel trace
the cambridge/haggle/imote/cambridge trace (这里的实验设备只有12个,不同于论文的54)
the cambridge/haggle/imote/infocom trace (这里的infocom是Infocom05)
后来,无意中发现http://crawdad.org/~crawdad/download/cambridge/haggle/ 可以下到Infocom6(Exp6.tar.gz ),如下:
Exp6.tar.gz 2009-08-12 07:26 3.7M (infocom06)
imote-trace1.tar.gz 2006-10-17 17:49 29K (intel)
imote-trace2.tar.gz 2006-10-17 17:49 66K (cambrige, computer lab)
imote-trace3.tar.gz 2006-10-17 17:49 254K (infocom05)
imote-traces-cambridge.tar.gz 2008-08-21 10:41 304K (cambrige, mobile&fixed)
数据集Hong-Kong,一直没找到。
注:我觉得上述的两个Cambrige都跟Bubble Rap论文描述不一样。前者,实验设备只有12个,显然与论文54个不符;后者,描述mobile users间及其与fix locations的跟踪情况,并且实验duration也不一样。
1.2 数据格式解读
Haggle项目收集的数据集,格式很一致,通常包含如下文件,以Infocom05为例,如下:
contacts.Exp3.dat
Exp3.README.txt
MAC3Btable.Exp3.dat
table.Exp3.dat
实际上,最有用是contacts.Exp3.dat
,描述设备间相遇情况,描述节点i
从时间t1
到时间t2
遇到节点j
,即前4列node_i node_j start end
,后面两列是基于前面4列组成文件计算得到的。
1 40 21574 21687 1 0
1 29 21578 21687 1 0
1 30 21687 21687 1 0
1 34 21574 21796 1 0
1.3 一些疑问
我在分析Infocom05, Infocom06时,发现所得到的结果跟Bubble Rap呈现的结果有出入,比如Infocom05的number of external contacts, Infocom06的number of internal contacts,甚至连contact duration、number of contacts分布图也不太一样。
2 Reality
在CRAWDAD官网,只有一个文件dump-anonymized.sql
,将数据存放在SQL数据库。在MIT Reality网站上,只有一个数据文件realitymining.mat
(matlab数据文件)。我粗略看了下,感觉蛮复杂,还没着手去分析。