分类筛选
分类筛选:

社交网络相关论文范本 和金融社交网络在伪卡欺诈发现中的应用方面论文范本

版权:原创标记原创 主题:社交网络范文 类别:硕士论文 2024-02-15

《金融社交网络在伪卡欺诈发现中的应用》

该文是有关社交网络论文范文资料与发现和社交网络和金融社交网络方面专科毕业论文范文。

中国农业银行软件开发中心 樊盛博

在线社交平台是当前十分流行的一种大型社会性网络服务技术,典型代表有国外的Facebook、Google+、What’s app 等,国内的人人网、微信、新浪微博等.据各平台披露,截至2016 年1 月,人人网已有注册用户3.2 亿,微信月活跃用户6.5 亿,Facebook 用户15.5亿(各平台活跃客户数如图1 所示).与在线社交平台一道得到极大发展的是社交网络技术.社交网络技术用于研究用户间潜在的关联模式,目前,社交网络技术已被广泛应用于话题传播、广告营销、社群发现等领域,取得了显著的成就.

社交网络分析(Social Network Analysis)起源于19 世纪末20 世纪初早期社会学家的研究,代表人物有格奥尔格·齐美尔(Georg Simmel)和爱米尔·涂尔干(émile Durkheim).早期的社交网络分析局限于对问题的描述,没有系统的研究方法.随着20 世纪70 年代研究的逐步深入,社交网络分析逐渐成为一个系统性的科研名词.近年来,随着Facebook 等社交媒体的兴起,社交网络分析又进入了一个研究.一方面社交媒体平台为研究提供了大量真实的分析数据,让科学家们更容易获取和分析真实社交网络数据;另一方面社交网络分析工具和技术也越发成熟,工具和算法不再是研究壁垒.

社交网络分析技术的发展也跨学科地带动了其他传统领域的发展,包括洗钱网络分析和反恐,其中最典型的代表是应用于生物领域的传染病传播模型.根据建模范式的不同,传染病传播模型可分为三大类:第一类为单一群体方法,将人群看作整体,流行过程体现在感染者、易感者等人群数量的变化;第二类为复合群体方法,考虑人群在空间上的异质性,将人群分为多个子群体,各子群体之间人员流动,形成复杂动态系统;第三类是微观个体方法,建模出发点是人群中的个体,个体有各自的属性和行为规则,形成接触网络.其中,第二类模型与伪卡欺诈社群模型较为接近.上述三类模型的建模方式基本思路如图 2 所示.

受此思路启发,我们将社交网络技术引入金融领域,利用客户间的金融交易信息(在银行发生的以转账、还款为主的金融交易以及同一地址、紧急联系人等非金融联系)构建客户社交网络,挖掘客户间潜在的关联模式,称为“金融社交网络”技术.金融社交网络技术可以广泛应用于客户产品推荐、客户社群发现、风险预警与监控等领域,本文以“伪卡欺诈发现”为例,展示该技术的应用潜质.

“伪卡欺诈”也称“克隆卡欺诈”,指不法分子利用头盔、录像、测录磁卡信息、安装假刷卡设备等手段窃取卡号和,仿制出伪卡并利用伪卡消费或取现的行为.近年来,随着农业银行对欺诈交易客户产生的损失的持续核销,欺诈即得利益客群持续增加,欺诈规则被利用的可能性越来越大.欺诈交易客户间的传播属于“病毒”类传播,与传染病传播模型十分类似,其传播速度如不加以控制将呈现几何级增长,面临的形势十分严峻.

传统的欺诈交易发现方法通常集中在单用户数据分析上,如信用评级、用户行为监控、卡面加密等.在国家层面上,美国针对欺诈交易出台了《公信借贷法案》和《信用卡欺诈法》两部法律,从法律上提供了对信用卡欺诈犯罪的定义.而在卡面管理上,目前在全球范围内,许多国家也都在进行迁移(EMV 迁移),推广EMV 规范,在多个环节实施磁条卡向芯片卡的技术升级,使得卡片安全性更高,以防范制作和使用伪卡的欺诈行为.

然而,这些方法只考虑和分析了单个客户的行为特征,而忽视了客户间关系对伪卡欺诈发现的意义.根据本文的分析,伪卡欺诈行为有着很强的集中性、传染性.伪卡欺诈行为的这种特点,一方面可能由于不法分子偏好于针对某些易受骗客户群体集中作案;另一方面可能存在相熟客户间对欺诈规则的恶意传播、进而谎称伪卡的现象.无论基于哪种原因,伪卡客户的集中爆发都非常值得关注.本文以一批示例伪卡欺诈数据为分析对象,利用金融社交网络技术进行分析,初步得出了关于伪卡欺诈客户的三个重要结论,并应用于欺诈交易客户识别系统,取得了不错的效果,证明了金融社交网络技术的实用性.

一、金融社交网络模型构建

金融社交网络模型的构建包括三步:伪卡欺诈客户数据加工、“社交关联”加工和“社交网络”建立.

1. 伪卡欺诈客户数据加工

本文将发生了任意一笔伪卡欺诈交易的客户称为“伪卡客户”.我们利用行内数据分析平台获得伪卡客户列表,并对其基本信息进行加工、整合和处理.(文中所采用的数据为抽样、变换+ 虚拟化后的数据,目的是为了验证算法的可行性,这些数据不是真实数据、与实际经营情况无关.)

2. “社交关联”加工

图论是社交网络进行处理的自然框架,且社交网络在形式上可以用图来表示.在这里我们使用了无向图,由点集和边集组成.集合中的元素是图G 的节点(客户),集合中的元素是图G 的边(客户间关系),由集合N 中元素的无序对构成.在数据结构上,通常使用邻接矩阵或邻接表对图进行描述.在本文中,基于分布式计算和节省计算时间的考虑,使用边集数组结构对图进行分布式处理.

边集数组使用两个一维数组(N 和E)对图G 进行描述.数组N 记录G 内各个节点的信息(用户),数组E 记录G 中各边的信息(用户间关系),E 中每一条记录包括边的起点、终点和权值,如图 3 所示.这里我们使用无向无权图,仅记录边的端点.

我们对全部交易数据进行加工,构建金融社交网络.构建过程共分为3 步:首先对2 年内交易数据进行归并.根据交易日期、日志号将多笔金融交易归并到最终的发起账户和接收账户;其次再将交易记录进行客户级归并.一个客户号可能对应多个账户号,因此需要将账户号映射到相应的客户号,再利用客户号对数据进行归并;最后使用Python 脚本对加工后的数据按照边集数组进行存储,以便进行下一步分析.

3. 构建“社交网络”

以已知伪卡欺诈客户作为起始节点,将与其发生过转账交易的相连客户加入网络,同时将新加入的节点作为下一个迭代的起始点,不断加入新节点.本次实验中,将2 度关联作为迭代终点(与伪卡欺诈客户距离为2 的其他客户).

网络构建部分使用Python 进行加工.程序本着分布式执行的思想,基本按照Map-Reduce 的模式设计,因此易于日后改写在Spark 上运行.算法如下:

A 等于 { 已知伪卡欺诈客户 }

E 等于 { 客户间金融联系 }

初始化:

For a ∈ A, 生成 key-value 对 P等于(a,path等于[a]), 其中path 为list 类型

迭代:

For 1 to K:(K 为迭代次数,可变参数)

For e等于(ci,cj) ∈ E:

Mapper: (ci,cj),(a,path等于[x]), if ci等于a:

Then 生成 (cj,[x,cj])

Mapper: (cj,ci),(a,path等于[x]), if cj等于a:

Then 生成 (ci,[x,ci])

Filter:对于任意 (c,path等于[x,c]),排除 (c,path) 对,如果c 已在x 中

Reducer: 对所有(c,path等于[x,c]) 进行归并,将相同的(c,path) 对合一

path 中所含的点即为网络中转账路径的客户.

为了提高计算效率、减少数据量,算法使用已知伪卡客户作为种子起点,迭代地扩大网络,对客户进行筛选.迭代次数K 为与伪卡客户的最远距离,通过调试该变量达成对目标群体的筛选.

统计分析时,需要考虑客户与客户间的最短距离,因此需要在网络构建的基础上计算客户间最短距离,我们基本按照Map-Reduce 的模式设计,算法如下:

For (c,path) ∈ P 对所有中间结果集

Mapper:(c,path等于[p0,...c]) 生成( (p0,c),length(path)),其中length 计算path 的长度

Reducer: 归并所有((p0,c),len) 对, 生成最短的((p0,c),min(len))

每一个归并结果即可作为缩减后的边集数组进行保存.

二、规律发现

利用金融社交网络和伪卡欺诈交易数据,我们首先分析了伪卡客户之间的关联性,发现两个伪卡欺诈交易的规律:与伪卡交易客户在金融社交网络上越近、身边伪卡交易客户越多的客户,其发生伪卡交易的可能性越高.基于此原理,我们进一步设计了社群分类方法,对社群内伪卡客户数较多的群体加强授信和风险控制,并通过与风险管理部门合作,在风险防控方面取得了不错的效果.

1. 客户与伪卡客户的金融社交网络距离越近,其发生伪卡交易的概率越高

我们首先利用金融社交网络分析了客户与伪卡客户间距离同发生伪卡交易概率之间的关系(如图4 所示).这里我们将距离定义为客户间发生交易关系所需要跳转的人数.

由图5 可知与伪卡客户发生金融关系的客户,更容易发生伪卡欺诈交易.与伪卡客户距离越近,发生伪卡交易的概率越高.如客户与伪卡客户直接发生金融关系,则该类客户本身再发生伪卡欺诈交易的概率可达普通客户的30 余倍.可见,伪卡交易存在着一定的“传染性”.同时可发现伪卡客户间金融关联度很高.从直接联系到1 度内的联系客户数增加了59 倍,平均一个客户两年内有59 个交易对手.这些客户的联系频度远高于全行的平均程度(7.3 人).

2. 客户与越多伪卡客户发生过金融关系,其发生伪卡交易的概率越高

客户与伪卡客户的金融社交网络距离越近,发生伪卡交易的概率越高;那么,距离相同时,客户与伪卡客户联系的频度是否与伪卡交易发生的概率有关(如图 6所示)?数据显示,客户与伪卡客户发生过的金融关系越多,客户本身发生伪卡交易的概率也越高.

本文将距离限定在1 以内,即统计与伪卡客户发生过直接金融关系,或与伪卡客户通过最多1 人发生金融关系的客户.根据其在金融社交网络中周围的伪卡客户数进行分析,得到如图7 所示结论.即随着关联度的增大,伪卡交易的发生概率呈正相关增长.其中关联数大于等于10 的伪卡交易发生率达到了0.0597%(万分之5.97),与普通客户相比,该类客户本身再发生伪卡欺诈交易的概率可达普通客户的140 余倍,需高度关注.初步结论为:客户与越多伪卡客户发生过金融关系,其发生伪卡交易的概率越高.这一结论说明了基于关联距离和频度的概率模型对于风险进行防控是有意义的.与此同时,此结论从另一个角度印证了伪卡交易具有一定的“传染性”.

3. 在一个封闭的连通度较高的小群体内,已知伪卡客户的个数越多(或比例越高),则群体内其他个体的伪卡交易发生率越高

上文验证了客户本身发生伪卡交易的概率和客户与已知伪卡客户发生金融关联关系的频度和距离成正相关.可以推知,在一个封闭的连通度较高的小群体内,已知伪卡客户的个数越多(或比例越高),则群体内其他个体的伪卡交易发生率也倾向于越高.

基于这个推论,使用社群发现算法,将客户分配至连通度较高的社群,然后对每个社群进行分析,可建立风险防控模型,从而实现对伪卡欺诈交易的控制.

常用的社群发现算法可分为非重叠的社群发现算法和重叠的社群发现算法,区别在于是否允许单个节点属于不同的社群.典型的非重叠社群发现算法包括模块度优先算法、谱分析算法、信息论方法和标号传播法等;典型的重叠社群发现算法包括模糊聚类算法、团渗透算法、混合概率模型算法及边聚类算法等.本文案例适用非重叠社群发现算法.

传统社群发现算法的普遍缺点是运算时间较长、有精度损失或需要先验知识确定参数,在数据量较大时尤为明显.为提高数据集上的计算速度,不对第三方库产生依赖,我们针对金融数据的特性,设计和使用了趋于线性时间复杂度的社群分类算法.这个算法将存在交易关系通过客户间连通度将彼此相连的客户归为一类,一般情况下时间复杂度为O(N),最坏情况为O(NlogN).

算法伪代码描述如下:

For e等于(ci,cj) ∈ E :

if ci 和 cj 未在任何已知群里:

then 将ci 和cj 放入社群Setk

if ci 属于Setk,cj 不属于任何群:

then 将 cj 放入社群Setk

if cj 属于Setk,ci 不属于任何群:

then 将 ci 放入社群Setk

if ci 属于Setk,cj 属于Setl, 同时 Setk ≠ Setl:

then 将Setk 和Setl 归并为一个新集合Setm

else: continue

通过社群分析,共计得到2268 个社群,平均每一个群体57.8 名客户,最大的群体75 442 人,第二大的群1682 人,最小的群体2 人.其中群内伪卡客户1 人的社群有2176 个,群内伪卡客户2 人的社群71 个,伪卡客户3 人的社群9 个,超过3 人的社群12 个,其中最大社群包含伪卡客户502 人.

我们将每个社群内已知伪卡客户占比与社群内已知伪卡客户数进行对比,发现社群内伪卡客户确有一定的集聚,如表 1 所示.相应地,已知伪卡客户较多的社群中的其他客户更有可能是潜在的伪卡客户,应加强授信控制.

伪卡客户的“传染性”可能由两方面原因造成.一方面,小群体内伪卡客户较多,其“传染性”可能源于客户间对伪卡欺诈规则的恶意传播,有意利用信用卡伪卡交易规则“吃白食”,从银行获取利益.对于这类疑似传播欺诈规则的群体,应进行更为严格的监控.

另一方面,“传染性”也可能来源于客户所处环境的不安全性.这类客户可能真实由于第三方窃取信用卡信息发生伪卡交易,造成个人损失.但小群体内大量发生此类现象,说明客户所处环境风险度较高,或客户警惕性较差,不法分子很容易获得客户卡片信息.对于这样的群体,同样应该加强监控力度.

本文以伪卡欺诈发现问题为例,利用客户间的金融交易关系模拟社交关系,辅助对伪卡欺诈交易的发现和预防,展示了金融社交网络技术的实用价值.通过构建金融社交网络,利用已知的伪卡用户数据,文中发现并部分验证了三个结论:一是客户与伪卡客户的金融社交网络距离越近,其发生伪卡交易的概率越高;二是客户与伪卡客户发生过的金融关系越多,其发生伪卡交易的概率越高;三是在一个封闭的连通度较高的小群体内,已知伪卡客户的个数越多(或比例越高),则群体内其他个体的伪卡交易发生率越高.这充分说明,利用金融社交网络技术可以有效地发现潜在的伪卡交易客户.

该模型已在风险管理部门落地推广.利用此技术,风险作业中心在风险监控系统中优化了监控规则,控制欺诈交易发生的风险,取得了不错的效果.引入金融社交网络技术后,针对欺诈交易用户所在的群体,监控规则为:特定群体内仅有一个欺诈交易客户,可以基本认定目前该客户没有将欺诈规则进行传播;特定群体内有2~3 个欺诈交易客户,可以认为欺诈规则可能被传播,但还没有扩散;特定群体内有超过4 个以上的欺诈交易客户,可以认为该客群已经利用欺诈交易规则有针对性地进行欺诈活动.针对这类客户群体,对有信用卡但未发生欺诈交易的客户将采取更为严格的欺诈交易监控策略,对未持有信用卡但符合发卡条件的客户则采取更为审慎的授信策略.

金融社交网络技术除了可推广至更广泛的应用领域外,本身也有进一步优化的空间.在伪卡欺诈发现这个应用示例中,我们采用了无向图,如果考虑到转账交易方向、进一步引入客户紧急联系人、家庭住址、电话号码、手机号等非金融关系,可进一步构建有向图、加权图,建立更完整的金融社交网络体系,从而取得更好的效果(如图8 所示).除此之外,如何设计更加快速的实时社群分类算法,如何在即将构建的全行目标客户系统中将该技术化、日常化等,也是我们下一步的研究方向.

社交网络论文参考资料:

中国学术期刊网络出版总库

网络安全论文

网络营销论文

计算机网络毕业设计

网络营销相关论文

网络论文

回顾述说,本文论述了关于对写作发现和社交网络和金融社交网络论文范文与课题研究的大学硕士、社交网络本科毕业论文社交网络论文开题报告范文和相关文献综述及职称论文参考文献资料有帮助。

和你相关的