社交网络中智慧搜索的研究综述
作者:佚名; 更新时间:2017-10-18

  在线社交网络是一种在信息网络上由社会个体集合及个体之间的连接关系构成的社会性结构。

  在线社交网络可分为4类:1)即时消息类应用,是一种提供在线实时通信的平台,如QQ、微信等;2)在线社交类应用,是一种提供在线社交关系的平台,如Facebook、人人网等;3)微博类应用,是一种提供双向发布短信息的平台,如Twitter、新浪微博等;4)共享空间等其他类应用,是其他可以相互沟通但结合不紧密的Web2.0应用,如论坛、博客等。当前,在线社交网络应用正处在蓬勃发展期,Facebook已拥有超过14亿的用户,成为第一大"人口国",新浪微博用户数已达到5.36亿,腾讯微博用户数已达到5.7亿。在线社交网络应用正深刻地影响着人们生活的各个方面。

  在线社交网络数据具有丰富价值,并蕴含着大量智慧。主要体现在:1)蕴含了大量用户情感、立场和观点,进而可发掘人类的思想和行为;2)包含了各类具有时空特性的话题、事件信息,进而可对它们的起源、传播和发展规律进行揭示和挖掘;3)记录了用户和话题间丰富的关系数据,进而可发现朋友关系、社交圈子、用户与话题、话题与话题等之间关系;4)充满了针对专业问题的丰富讨论,进而可汇聚群体智慧,服务于人们的工作和生活。

  传统的搜索引擎技术,主要是面向Web1.0静态网页,是基于关键词的"存在性搜索",不能支持面向Web2.0/3.0应用,具有5V特性的大数据,及其满足用户需求智慧解答的搜索。因此不能发掘丰富的在线社交网络智慧,且服务于用户。本文研究在线社交网络智慧搜索技术,定义如下。

  在线社交网络智慧搜索是在正确理解用户意图的基础上,基于社交网络数据进行加工、推演处理发掘知识,进而给出智慧解答。在线社交网络大搜索具有"4S"特点:1)意图感知(sensingthecontext),结合用户请求的上下文、时空特性、场景感知等方式,支持在语义级别上对用户搜索意图进行准确理解;2)多源综合(synthesisfrommultiplechannels),综合、关联多通道、多来源(不同社交网络)的社交网络数据和信息,进行统一的知识发掘和推演;3)安全可信(securityprivacyandtrust),在线社交网络搜索结果的安全可信的,并且支持隐私保护;4)智慧解答(intelligentsolution),搜索的结果是基于在线社交网络数据和信息,经过发掘、推理和计算而得到的一组有序智慧解答。

  2、相关工作

  在线社交网络智慧搜索涉及的相关理论和技术包括:搜索引擎技术、在线社交网络分析、复杂对象关系建模、意图理解与匹配及知识构建与推演等。

  当前的搜索引擎技术主要包括互联网搜索引擎和在线社交网络搜索。主要的互联网搜索引擎包括全文搜索、元搜索引擎和垂直搜索引擎等。在互联网搜索引擎中,为优化搜索结果,通常采用倒排索引技术对网页信息进行索引,并采用排序算法对搜索结果进行等级排名,典型的算法包括PageRank[1]和HITS[2]等;为提高搜索结果的关联性,Google、百度、搜狗等引入知识图谱技术;为实现搜索信息的高效存储管理,各互联网厂商纷纷提出了解决方案,如Google的Bigtable[3],Amazon的Dynamo[4]、Yahoo的PNUTS[5]等。在在线社交网络搜索方面,360推出的"我的搜索",引入微博、微信等社交因素的影响,并在搜索结果中进行展示。Facebook推出的社会搜索引擎GraphSearch,用户可在社交网络中对好友、照片、地点等进行搜索。微软推出的人立方关系搜索,自动地计算每一个人名与关键词的距离,并可展示人的社会化关系。

  在线社交网络分析为社交网络中知识的获取和推演提供了相应的方法。主要的社交网络分析包括话题发现与演化、虚拟社区发现与演化、信息传播以及影响力分析等。话题发现与演化能有效支撑网络时代的信息决策。代表性工作包括:Blei[6]

  提出的隐含狄利克雷分布的LDA模型、Lin等[7]提出的潜在扩散路径方法、美国马里兰大学研究的词项间共现频率反映语义关联原理的方法[8].虚拟社区发现与演化有助于发现社交网络中的拓扑结构信息。代表性工作包括:Newman等[9]提出的模块性方法、Chakrabarti等[10]提出的社区演化模型、Mucha等[11]提出的多层网络社区发现、Tang等[12]研究的多模态网络社区发现等。社交信息传播机制有助于对社会网络的认识。代表性工作包括:Gruhl等[13]基于SIRS传染病模型、Han等提出的高斯条件随机场模型、Antulov-Fantulin等[14]提出的统计推理框架溯源方法。影响力分析能发现社交网络中高影响力用户和影响强度。代表性工作包括:Ellison等[15]研究了在线社交关系对现实社交关系的群体互动影响;Woolley等[16]分析了心理因素、认知空间对群体聚集的影响;Wen等[17]根据关注网络和用户兴趣相似性计算个体在每个话题上的影响力;Romero等[18]综合考虑了影响力与冷漠性,提出了类HITS的算法。

  对象关系模型是构建在线社交网络搜索知识仓库的基础。当前复杂对象关系的建模通常用图结构来表示,常用图模型包括PropertyGraph[19]、RDF[20]、MultiGraph模型[21]等。PropertyGraph在节点和边上可以存在任意数量的键值对表示属性或标签,因而其表达能力很强。RDF用三元组SPO(subject,property,object)来描述实体之间的关系,是当前表示实体以及其关系的一种常见模式。

  MultiGraph模型可在2个实体之间保留多条边以表示多种关系。近来年,许多研究将时空信息融入到复杂对象关系的建模中。微软亚洲研究院分别从用户、地理位置和事件3个层面对基于位置的地理社交网络进行了研究,发现单纯社会网络中个体之间无法表现的关系[22].Shekhar[23]将时空因素考虑到在线社交网络数据分析中,提出一种时间聚集的图模型。

  用户意图理解与匹配是搜索中的关键技术。在用户意图理解方面,Wolframalpha通过从公众的和获得授权的资源中发掘、构建的数据库,能够理解用户问题并直接给出答案。搜狗的"知立方"通过引入"语义理解"技术,试图理解用户的搜索意图,对搜索结果进行重新优化计算。Etzioni等提出了基于规则模板抽取实体/概念之间的关系来描述和理解搜索意图。Madhu等[24]利用语义网工具和技术提供分层模块的方法解决搜索引擎对语义内容的理解。在意图匹配方面,主要包括文本模型和图模型。基于文本模型的意图匹配通过将以关键词查询检索的方式来把用户的意图进行语义转换和目标文档的匹配,并获取相关度排序。基于图模型的意图匹配通过图搜索来实现搜索意图与搜索空间中目标项的查找和匹配,主要包括[25]:关键词图搜索技术、子图匹配技术和近似图匹配技术等。

  知识是实现智慧搜索的关键。当前,知识构建较多地从知识图谱构建角度加以展开,以互联网网页为来源的典型知识图谱包括KnowItAll[26]、TextRunner[27]和Probase[28],以在线百科为数据来源的知识图谱包括YAGO[29]和DBPedia[30]等。知识推演是在给定目标的情况下,在知识库或网络空间中进行推演求解,以获得答案并产生新的知识。当前知识推演的操作过程包括利用统计、知识推理和众包等方法。其中,主要的推理方法包括:正向推理、逆向推理、双向推理、非精确推理、基于语义的推理和基于案例的推理等。

  上述技术的发展为在线社交网络智慧搜索的研究奠定了研究基础,在理论、方法和技术方面存在诸多挑战,主要包括:在线社交网络中智慧与知识的发掘与推演、用户真实搜索意图的理解与表示、满足用户真实意图的智慧解答在线响应。

  3、研究进展及技术要点

  目前,社交网络智慧搜索与当前的社交网络搜索的区别主要体现在智慧的能力,而智慧处理过程是以知识图谱为基础,主要研究内容可划分为在线社交网络知识发掘与推演、知识聚合与组织管理、用户搜索意图理解、用户意图的搜索与匹配等部分,各研究点间交互形成总体框架如图1所示。

  社交网络知识发掘与推演。可支持对在线社交网络空间中的数据获取和推理,包括微博、博客、论坛、维基、共享网站等空间中采集文本、图片、语音、视频等各种类型的多模态数据,以及各类已存在的对象知识和关系知识。数据获取与采集过程不间断进行,采集后的数据和知识是后续推理和搜索的基础。

  知识聚合与组织管理。面向在线社交网络空间的海量对象知识及关系知识进行建模;在此模型实例化的基础上通过知识聚合,构建知识仓库空间,并通过索引、关联和演算等聚合操作预先形成知识聚合体。知识仓库中的知识是不断经过二次加工的,经过用户的查询、修改、反馈和自演化的过程,逐步完善,根据应用建立各类索引,同时满足用户搜索时的准确性需求和实时性需求。

  用户搜索意图理解。面向意图理解的准确性和歧义消除的基本需求。结合用户的上下文和语义知识等方法,迅速、准确地理解用户的真实意图,并转变成与知识仓库可匹配推演的表示方式。用户意图的搜索与匹配。基于意图理解表示和知识仓库,经过匹配、推理、计算、乃至众包等技术和方法的处理,形成若干个满足用户真正意图的智慧综合的解决方案,并通过结果评价排序方式给出其优先级,为用户提供智慧的解答方案。

  3.1在线社交网络知识表示模型

  在线社交网络中的对象知识具有多样化特性,可通过文本解析、实体抽取、关系抽取、元数据分析、指代消解等技术来获得在线社交网络中的不同侧面对象知识,并以特征关联的形式对其进行描述,建立针对个体对象的内容语义描述模型。

  在线社交网络中的内在多层次、演化的关系型知识需要进一步提取和挖掘,一般可采用支持语义关系的语义图模型表达;综合对象知识和关系型知识,可借鉴目前时态地理信息系统以及数据分析领域中的资源描述框架(RDF)、属性图(propertygraph)、多图(multi-graph)等模型方法,通过模型的组合以及扩展等方法,并通过整合现有语义库(包括Freebase和Probase等)来统一表示语义信息。

  3.2在线社交网络知识的发掘与推演

  在线社交网络知识获取与推演具有多样化、关系复杂与演化等需求,可从个体行为及立场分析、群体社区发现及极化规律、话题的缘起与发展和信息传播规律等在线社交网络的角度出发,进行发掘和推演。研究主要针对社交实体的对象交互特性、时空特性、规模特性、多源特性等方面。

  在线社交网络中的对象具有丰富的交互关系进行推理挖掘,可采用基于时序语义图的关联算法。支持时空特性是社交网络知识的主要特性,可基于相似性计算与多尺度空间匹配等方法,以及面向在线社交网络的时态逻辑推理算法,利用关系传递和协同过滤等技术,对在线社交网络知识推理。在线社交网络中的对象属性具有个数规模大的特点,可通过目标驱动的基于属性依赖关系的可伸缩的模态推理技术,实现基于刻面的社交网络大规模属性推理。社交网络中的知识含有大量多源异构交互信息,可通过离线众包推理与反馈相结合的多源知识融合方法,实现社交网络交互信息的众包推理与多专家信息的智慧解答的有机融合。

  3.3面向在线社交网络知识聚合与组织管理

  发掘和推演生成的知识是粗糙、低层次的,可通过知识聚合来生成精炼、物化和泛化的知识来满足用户搜索的需求,并形成知识仓库。

核心期刊快速发表
Copyright@2000-2030 论文期刊网 Corporation All Rights Reserved.
《中华人民共和国信息产业部》备案号:ICP备07016076号;《公安部》备案号:33010402003207
本网站专业、正规提供职称论文发表和写作指导服务,并收录了海量免费论文和数百个经国家新闻出版总署审批过的具有国内统一CN刊号与国际标准ISSN刊号的合作期刊,供诸位正确选择和阅读参考,免费论文版权归原作者所有,谨防侵权。联系邮箱:256081@163.com