社交网络——新一代数据挖掘的金矿
随着Facebook的发布,社交网络再次成为人们关注的焦点。与传统论坛和博客相比,社交网络是虚拟世界与现实世界之间的桥梁,并在互联网上建立了现实生活中人们之间的关系。从社交网络,Facebook,Twitter和LinkedIn的分类来看,代表了三个不同的社交网络。 Facebook是一个基于朋友之间牢固关系的社交网络,该网络有助于维持和改善朋友之间的关系; Twitter是一个基于弱关系和单向关注的社交网络,有利于塑造舆论领导者并传播新闻。 LinkedIn是一个专业的社交网络,可帮助用户使用社交关系来交流和招募工作。
这三个社交网络每天都会产生大量的用户数据(UGC),并且是前所未有的大型和小组,吸引了无数的研究人员从无序数据中发现有价值的信息。这就像在概率统计中经常提到了计算硬币投掷概率的概率的示例。很难从几次投掷的结果中看到模式,但是通过大量的投掷实验数万次,很容易看到前侧的外观。几乎相等的次数规则。社交网络上已经生成了大量的大规模和小组数据,吸引了计算机科学,心理学,社会学,新闻学和沟通领域的专家和学者来研究和探索它,希望使用更强大的社交网络。系统的分析和处理能力发现了更多人类尚未探索的法律。
社交网络的分析和研究范围非常广泛,并且有许多有趣的研究主题。例如,在社交网络中识别社区圈子(社区检测),社交网络中字符影响的计算,社交网络信息的传播模型,虚假信息的识别和机器人帐户,基于社会的股票市场网络信息,大选以及传染病的预测等。社交网络的分析和研究是一门跨学科的学科,因此在研究过程中,我们通常在研究过程中使用基本结论和原理社会学,心理学甚至医学作为在人工智能领域使用机器学习的指导。诸如图理论之类的算法模拟和预测社交网络中的行为和未来趋势。
社交界的识别
与一般面向内容的论坛和其他社区不同,社交网络的核心是人们与社交界(社区)之间的关系。但是,每个人都可以根据自己的关系和兴趣属于多个人。社交圈。我们在社交网络上发布的所有信息流都通过我们的关系圈逐层扩散。我们收到的消息直接来自我们关心的人,甚至外围消息也必须一层散布,然后才能与最终用户联系。因此,如何发现社交界是社会关系网络分析中非常重要的基础研究。社交圈的一个示例如图1所示。
图1基于OSLOM算法的社区发现渲染
使用计算机处理社交网络通常将整个社交网络视为图形结构。每个用户是图中的节点,人之间的关系是节点之间的边缘。根据不同类型的社交网络,形成的图形可以是有向图或无方向的图,并且边缘上的不同权重也可以反映这种关系的强度。对于社交界的发现算法爱游体育app下载官网,社交界的质量取决于圈子中成员之间关系与不同圈子之间的分离之间的紧密性。但是,对于数亿个节点,当前的圆形发现算法仍然很难处理非常大规模的数据,因此许多研究人员提出了启发式方法,以减少程序处理的复杂性并近似最终结果的解决方案。 。
但是,实际的社交圈是一个更复杂的网络,因为用户将具有多种兴趣,并且可以属于多个社交圈。发现此类圈子的研究也称为发现重叠的社区。一种相对简单的启发式方法是将带有大型中型网络的节点用作初始圆,然后添加相邻节点,这些节点依次对圆圈最大的贡献到圆圈,直到全局贡献达到极值并形成一个圆圈。 。如果有边界节点对多个圆圈有很大贡献,请将它们添加到多个圆圈中。最近,一些人提出了一种发现算法,该算法使用标签传播算法和粒子群算法来解决重叠的社区。
社交圈发现算法不仅限于用户积极建立的关系,但其更重要的价值在于发现对用户的非明显潜在关系。从社交界的结果中,我们可以更清楚地看到属于同一圈子的人。当然,也有许多方法可以分割社交界,例如社交界,兴趣社交界等。在算法中,亲密关系是主要指标,兴趣也分为不同的社交界。
从中得出的一个问题是在线界是否与离线的真实社交界一致?当两个人在社交网络上经常互动时,他们也是真正的朋友离线吗?从算法的角度来看,这是一个很难解决的问题,但是如果我们从不同的角度考虑这个问题,请考虑我们的离线联系信息。如果A和B有彼此的手机号码,那么它们在线,很有可能得到一个真正的朋友。如果真正可以根据手机通讯簿将包括FEXIN,MITALK,METALK和其他产品在社交网络中制作到社交网络中,那么我们可以通过异质的社交网络对社交圈做出全面的判断,它们的价值是不可估量的。
影响的计算
在社交网络中,舆论领导者由于对互联网的强大影响而对信息传播和普通用户的行为产生了巨大影响。以Sina Weibo为例,最直观的影响表现之一是,拥有V认证的名人也可以在正在吃饭的微博帖子上获得数百个重新发布。但是,对于普通用户而言,如果您可以获得双位数,则在微博帖子上的重新发布数量,您会为此加油。
因此,像真正的社会一样,社交网络中的人们也具有不同的阶级和不同的影响。但是,应该如何测量和计算影响?我们前面提到过,当计算机处理社交网络时,它们经常使用图的结构,这与搜索引擎中的结构一致,如表1所示。因为在搜索引擎中,图形的节点是Web页面和网页。边缘是链接,但是,搜索引擎中的Pagerank算法是用于对网页进行排序的算法。如果我们在社交网络上使用Pagerank,我们可以对人们的影响力进行迭代计算。除Pagerank算法外,还用于社交网络的影响计算中,算法(例如W-Entropy)也使用。
表1通过社交网络和搜索引擎对图形结构的不同定义
但是,对于每个人来说,它们在不同领域的影响也不同。例如,凯·李(Kai-Fu Lee)的影响力主要在科学技术领域,黄江的影响在体育领域,Xue Manzi的影响力主要在投资和慈善领域。因此,如何评估一个人在不同领域的影响也是一个非常重要的问题。一些学者根据主题级别提出了影响评估模型的点击(主题亲和力传播),以试图解决此问题。大规模社交网络数据中显示了该算法的出色结果。
KLOUT等外国公司已经设计了算法,以评估每个人在社交网络中的影响。一些公司甚至展示了一种基于个人网络影响力在现实生活中提供差异化服务的模型。例如,以不少于40分的KLOUT得分的用户可以享受机场VIP休息室。尽管许多人也对这种行为也受到质疑,认为这是一种“势利”的方法爱游戏app官方网站登录入口,但也可以将其视为对网络影响在业务模型中应用的新型探索类型。在中国,西那(Sina)的Microdata和Miu+在微博的影响计算中也进行了一些探索,在中国该领域的发展空间仍然很大。
信息传播建模
在社交网络上,每个人都是自我媒体。与依靠内容作为沟通主题的传统媒体不同,社交网络上的信息传播更多地取决于出版商和社交关系的影响,并且通过朋友或粉丝之间的关系,信息会传播到社交网络。社交网络上的朋友和粉丝将看到这种信息,并将以一定的可能性共享和转发爱游戏app官方入口最新版本,以便被传播。图2可视化微博的通信过程。
图2单个微博传播图(来自)
一些学者利用传染病在人群中的传播以及社会上的谣言传播来比较和描绘社交网络中信息的传播,然后使用传染病动力学和复杂的网络理论来模拟社交网络的传播行为。和预测。更直观地,如果整个社交网络被视为图形结构,则社交网络中的用户被视为图中的节点,并且用户之间的关系被视为图表的边缘,那么信息传播过程正在开始从起点用户的节点中,信息沿相邻侧面传播。相邻节点的用户将根据时间和主题的不同概率传播或终止信息。对于传染病动力学模型,网络中的节点通常定义为三类:传播节点,未感染的节点和免疫淋巴结。传播节点的特征是它具有传播邻居节点信息的能力。一个未感染的节点尚未从邻居节点中收到信息,但有机会接受信息,也就是说,这是被感染的概率;免疫节点表明该节点已接受来自邻居节点的信息。 ,但没有交流的能力,因此可以定义某些通信规则:
这允许通过传染病动力学的方法建立状态转移方程,以实现信息传输过程。建立了沟通模型后,我们可以通过测试沟通节点的程度(即朋友或粉丝的数量)和关系的力量(边缘的重量)来找出信息传播程度,以便确定这些信息在社交网络中是传播中的法律。
鉴定假用户
虚假信息和错误用户的识别是社交网络深入研究和实际应用的基本任务,并且具有重要意义。在社交网络上的信息传播期间,错误的内容或错误的海军用户将不可避免地会干扰。如果可以识别错误的用户和虚假内容,则可以更好地恢复公众舆论的真实思想和地位,并且将为公司营销和政府对公众舆论的理解提供更真实有效的数据。一般而言,与匿名论坛相比,在社交网络上识别伪造用户相对容易,因为可以从更多的维度进行检查。在社交网络上,错误帐户通常没有真正的社交互动,并且关系网络中的大多数链接也是错误的帐户。此外,可以通过帐户的转发行为以及内容的识别和判断来有效地识别错误的用户。我们使用以下8个用户行为特征来对伪造用户在Sina微博上的判断。
鉴于上述8个功能,使用机器学习分类算法训练模型并使用模型预测后续的虚假用户,它可以有效地发现错误的用户,在公众意见分析中消除它们,并恢复真实的信息传播情况和公众意见(公众评论在线发布。
使用数据预测未来
社交网络数据最吸引人的研究工作是预测未来。社交网络每天吸引数亿人在互联网上发布其数据,状态和情绪。大量规模和小组的数据为数据科学家提供了从大量数据中发现未知人类法律的机会。
通过监视Twitter上的公共情感数据,美国科学家发现,公共情感数据与许多社会现象和事件高度相关。例如,一些研究人员发现,“希望”的积极情绪和“恐惧”的负面情绪都表明美国股票市场指数的下降。一些研究人员认为,只要公众对社交网络的情绪突然改变,它将反映出股票市场的不确定性,因此该信号可以用于预测股票市场的未来方向。
在流行病的预测方面,英国科学家根据Twitter数据跟踪流感暴发。它们主要基于用户发布信息中的关键字,例如“我头疼”,并与用户的发布位置相比,与英国卫生部按地区相比,并最终建立了一个预测模型。 。企业家团队“ SiveWeather”甚至以预测疾病为主题启动了自己的企业家项目。
许多研究人员还使用数据挖掘方法来预测电影票房,美国大选的趋势和结果,并取得了令人惊讶的结果。
但是,我们对使用社交网络数据的预测能力的态度不能太乐观,因为社交网络的预测基于大量数据,但是当前的大量文本数据算法尚未达到理想的准确性。特别是对于从文本信息中做出情感判断的看似简单的问题,它的本质是自然语言处理和情感心理学的相交。但是,当前的自然语言处理方法主要使用概率统计方法以及词汇方法和语法进行解释的分析。文本情绪的判断也主要基于词典和语法结构以及基于机器学习的方法。但是,这些方法很难对略有复杂的有效判断,尤其是具有讽刺意味的和隐性的语言。此外,社交网络使用的群体不能完全代表有效的人,因为使用社交网络的人口与年龄,地区,种族等有很大的差异。因此,仅使用社交网络生成的数据进行预测可能是预测仅使用社交网络生成的数据的最终结果。结果是有偏见的,因此从人口的角度来看,科学和有效的抽样方法也是社交网络预测的特别重要部分。
总结
人们对社交网络数据的理解和挖掘仍处于相对较早的阶段,这种大规模和高维数据的采矿方法仍在不断发展。目前,无法有效解决许多基本问题,例如文本语言和社交网络传播预测的情感分析,这对社交网络的深入研究造成了一些限制。但是,随着人工智能研究水平的不断提高,尤其是结合认知神经科学和人工智能技术的研究,我们已经看到了人工智能的新希望。当我们真正能够解决这些问题时,社交网络将成为帮助我们预测未来趋势的强大工具。但是,社交网络数据的全部使用也意味着公开越来越多的用户的隐私。因此,如何在用户隐私和数据完整性之间找到平衡也是数据工作者将来将面临的问题。