说到电子邮件调查,普通人想到的一定都是“看邮件”,第一反应是“一封一封”地“看”,这里所谓的“看邮件”,基本可以等同于对于邮件主题、内容和附件的简单查看,最常见的就是直接登录网页版邮箱或者采用outlook客户端等方式进行查看。
从专业数据调查的角度,并不否认人工检查的必要性,但在不同案情下,电子邮件分析的方法和手段是大有不同的。
专业的电子邮件调查远不止这种“查看”,而是包含了针对邮件主题和内容、附件、邮件头这3个部分的专业分析,这就是我们所谓的“三段论”,这样才能称之为完整的邮件调查。在其中的每个阶段,都有相对应的专业手段、方法和技巧,也常需要配以专用的设备和软件工具来进行。
01 邮件的通用协议
电子邮件普遍遵循MIME协议,只是一个英文缩写,全称为Multipurpose Internet Mail Extensions,中文直译为“多用途因特网邮件扩展”,MIME协议的完整内容由RFC 2045-2049定义,包括了信息格式、媒体类型、编码方式等各方面的内容。
MIME协议的出现,使得电子邮件从最初只能发送纯文本,一跃发展成可附带图片、声音和文档等二进制文件的强大通信手段。
MIME增加了邮件主体结构,通过编码规则将数据转化为ASCII形式,实现数据传输。编码方式可以是以下3种:
普通的7位或8位字符;
基本64编码(Base 64 encoding) :原理是把3个字节的数据用4个字节来表示,4个字节中每个字节实际用到只有前6位,不受只能传输七位字符限制的影响;
引用可打印编码(Quoted-Printable encoding):原理是把一个8位字符用两个十六进制数值表示,并在前面加“=”。经过这样编码的文件通常形如:=C7=A3= A1=B6=C5=CE=BC=E8=D3=E9=F6。
根据MIME协议中对Content-Type字段的设定,消息的类型做了规范,格式为text/palin、image/gif、video/mpeg……,在“/”前的为“大类”,目前共有7个,分别是:
文本(Text)
图像(Image)
音频(Audio)
视频(Video)
应用程序(Application)
消息(Message)
多重成分(Multipart)
根据MIME协议,邮件就是2个部分组成,即“邮件头+邮件体”。然而在当下,纯文本或不重要的日常通信信息已被微信等即时通信工具普遍代替,日常收发电子邮件更多的是为了收发诸如office文档、pdf文档、压缩包信息等重要业务文件,也利于信息的有效留存。
“附件”作为一项重要的数据来源,包含了重要的隐藏信息,结合对计算机镜像的完整分析,往往可以挖掘出有价值的信息,我们将其单独列为调查的重要部分。
02 电子邮件调查的3个阶段
实际调查中,调查人员收到的电子邮件数据源,基本无外乎打包的pst文件、单封邮件,还有web邮箱的账号密码这3种主要形式。由于单封邮件和web邮箱的特殊性,更适合人工审查的方式,不做过多阐述,本文仅以邮件集合(pst文件等)为例进行说明。
邮件内容解析
对于pst这类邮件集合,其邮件数量往往是海量的,正因数量过于庞大,有效信息隐匿在大量无效信息之中,剔除无效信息,提取有效信息就显得十分必要。
为此,必须使用专业的电子邮件分析工具,根据涉案线索,对邮件字段进行排序、分类、去重,使杂乱无章的邮件按照我们想要的方式呈现。
利用工具软件,我们可以从海量数据中根据邮件标题、收发件人地址、IP、收发时间、域名、附件等字段中自动检索、提取和分类导出可能含有重要线索的邮件,还可以对电子邮件内容中特殊的行业术语、称谓等信息,快速地对邮件进行过滤筛查,浓缩了调查范围,提高了调查的效率。
在设定涉案关键字时,若采用较为明确的表述,虽然提高了检出邮件的准确率,但同时也因为精确检索,很可能漏掉一部分线索。为此,在检索中,除了精确检索外,常会采取“正则表达式”对内容进行模糊化的搜索。
正则表达式(Regular Expression)是计算机科学的一个概念,用于使用单个字符串来描述、匹配一系列符合某个句法规则的字符串,实践中,通常被用来检索、替换匹配某个模式的文本。
正则表达式需要大量的学习和时间才能牢固掌握和灵活运用,也需要一定的计算机基础知识才能充分理解,无形中成为了非计算机专业调查人员的一道门槛。
而借助邮件分析专用工具,我们可以很轻松地利用正则表达式为我们服务。在大多数的专业取证工具中,都预设了常见字段的正则表达式模板,直接调用即可。
比如案情中涉及一个银行账号,但调查人员仅仅知道该账号中包含了某几个数字,且并不连续,该如何检索?又比如涉案人员为绕过防火墙审查,在某些关键词中加入“空格”、“无关字符”等内容,且并不重复,又该如何检索?
利用预置的正则表达式模板,就可以轻松地解决。如搜索包含“星瀚”二字的信息,希望能检索出“星¥瀚”、“星123瀚”、“星空浩瀚”这样组合的字符串,用“星+限定0到5位任意字符+瀚”的组合,就能将目标字符串全部检出。
用好正则表达式,某种程度上相当于掌握了一把用于“盲搜”的金钥匙,对调查工作起到了事倍功半的效果。
附件审查
常见的邮件附件包含了office文档、PDF文档、各类图片和压缩包等文件,在企业合同往来、内部文件会签和流程审批等场景下,附件被大量使用。
数据检索和解析,也同样将附件及其元数据纳入其中,不可或缺,尤其是office文档和图片的元数据信息,包含了文档作者、修改者、创建、访问和修改时间等重要信息,不能忽视。
首先要审查附件内容,我们通过将附件文件按分类导出,再利用文本和二进制编码检索工具,对其内容进行筛查。
其次,结合完整的重点邮件,对其包含文件元数据信息进行纵向和横向的对比,通过对比文档创建者、修改者的异同,时间点上的先后关系,进一步发现线索。
邮件头分析
MIME协议中,邮件体体现的是收发件人通信的实质内容,而邮件头则包含着连收发件人自己都不了解的相关信息。
邮件头包括了:主题、发件人、收件人、收发件时间、域名IP等信息,部分如下图所示:
邮件头分析在针对单封邮件分析和海量邮件分析时,都有着极其重要的价值。
例如在一起敲诈勒索案件中,涉案对象使用境外免费邮箱发送勒索邮件,在邮件头的分析中,调查人员通过将邮件头中的邮箱账户名、发送邮件时间点、中转节点IP等信息与案情本身的细节进行对照分析,拓展思路,再结合互联网公开信息排查,最终成功发现涉案人员在境内互联网上的活动痕迹,为配合公安机关成功定位嫌疑人提供关键性的线索。
再比如,通过邮件头分析,对拥有相同或相似域名、IP、收发时间的邮件进行关联分析,再结合案件中其他特征信息,可以对具备某种特征的人员进行归类,初步判断某个或者某几个人的关联关系,帮助调查人员快速地从海量邮件数据中将视线浓缩到关键涉案人。也可以通过数量统计排序,列出较为集中的涉案邮件,而同时显示出的地理位置也可以为知产保护、打假等案件的调查提供参考依据。
此外,专业的分析工具软件,还能将邮件头中数以千计、万计的收发地址进行直接或间接、数量和往来关系的大数据分析,将某个特定对象的人物错综复杂的关系,以图形化的方式呈现出来,让关系变得简单、直观、清晰,为辅助调查人员逐步深入解析和调查提供最佳的切入点。
实际调查中,按照上述步骤对邮件内容、附件和邮件头进行解析、检索、汇总、归类,已然成为一般性电子邮件数据调查的固定套路和手段,也切切实实地提高了对原始数据提取挖掘的效率,有效节省了调查人员的工作量,也大大减少遗漏、出错的概率,为案件调查提供了有利的支撑。
作者:星瀚内控与反舞弊法律中心 周晓鸣