基于兴趣的科研社会网络软件设计与实现
一.课题名称、来源、选题依据
1.1 课题名称
基于兴趣的科研社会网络软件设计与实现
1.2 课题来源
实验室自主研发
1.3 选题依据
在科学研究过程中,研究者为了保存研究资料以便于今后查询,通常会使用科研文献管理软件进行文献管理,比较常用的有EndNote和NoteExpress等。但是现有的科研文献管理软件仅仅单纯的将研究者本地的科研文献组织管理起来,仅仅起到了管理的作用,不能够用于研究者之间的科研文献资料的交流,因此限制了研究者之间的交流。
将研究者作为节点,具有相同兴趣的研究者之间有一条边,这样就形成研究者网络。将如何有效地共享科研文献资料放到研究者网络中进行研究,问题演变成如何根据研究者的行为分析研究者的兴趣从而形成自组织虚拟社区并且向研究者进行个性化内容推荐。
研究者网络是社会网络的一个子集,可以借鉴现有的对社会网络的研究和分析方法来解决这两个问题。同时现在广为应用的P2P模式也可以应用到研究者网络中,每个研究者可以看作单独的实体,每个研究者之间完全对等,进行科学交流。
基于研究者的兴趣将科研文献管理的工作网络化,开发科研社会网络软件,对于研究者的研究工作的促进作用是巨大的。科研文献管理工作网络化将会更有效的增强科研文献资料的共享能力;增进研究者之间的交流;同时,根据研究者的研究兴趣,分析研究者之间的相似度,从而兴趣相同的研究者之间形成自组织的研究团体;根据研究者的研究兴趣,还可以定期或不定期的向研究者推荐其感兴趣的内容。这些对于促进科学研究的进步具有重大意义。
二.本课题国内外研究现状及发展趋势
社会网络是一个由节点(通常是独立的个体或组织)组成的社会结构,这些节点之间通常有一种或多种特定类型的联系,如价值,视角,观点,金融交易,朋友,血缘关系,厌恶,冲突,贸易,web链接,性关系,疾病传播或者定期航线等。
社会网络建立在这样的想法上:有一个可决定的结构使得人们无论直接地或间接地都可以彼此认识。譬如“六度分割”这种通俗化的概念——“在地球上的每个人最多通过六个私人关系就可以被联系在一起”,人们可以(但可能并不知道)通过普通的同事就相互联系起来。
对社会网络的分析大致经历了如下三个阶段:
(1)美国20世纪30年代的社会计量分析人员(他们的工作以形态心理学为根基) 打算调查幸福的感觉与人的社会生活结构如何相关联。这场运动紧密同Jacob Moreno联系在一起,他构想了社交图,这是一张把个人作为点、把与其他人的联系作为线的关系网络视觉图。在这场研究运动其他主要成员还有Kurt Lewin, 他最伟大的功绩是改进了团体关系的数学模型;还有Fritz Heider,集中于研究人们与其他人关系的感受。
(2)同样在30 年代, 哈佛大学研究员开始集中于研究在社会团体中的派系问题,来辨别在社会系统之内有凝聚力的小团体(譬如工作、教会、家庭、协会和俱乐部)。这个小组受到考古学家Alfred Radcliffe-Brown的影响,他工作的着眼点是美国的工厂和社区生活。
(3) 英国曼彻斯特的一个考古学家小组,借鉴了50 年代Radcliffe-Brown的成果。 这个小组的成员之一John Barnes,在1954年创造了“社会网络”这一特别术语。他与Elizabeth Bott在社会测量(sociometric)方法上共同合作,但着眼于人的非常规社会关系,而不是那些与机关和协会的联系。另外, 他们的工作集中于这些网络中的冲突和变化。Clyde Mitchell利用了从图表理论数学到改进观察的方式,扩展了传统的社会测量方法。
2.1主流社会网络应用
随着科学技术的发展,人类进入了信息飞速增长的时代,信息量的飞速增长带来了一些显著的问题,正如Herbert A .Simon(诺贝尔经济奖得主)所说:“信息消耗了接受者的注意力,因此信息过载就会产生注意力匾乏,从而迫切需要从大量的可能消耗接受者注意力的信息资源中进行注意力的有效定位”。人们如何更加迅速有效的获取自己所需要的信息成为研究的热点,这其中涉及到如何有效的发布信息,以怎样的方式组织信息,用户获取信息的方式,信息呈现给用户的形式。
社会网络主要应用于如何将信息有效的组织起来,即连接起来,同时社会网络还关心用户获取信息的方式,将用户按照一定规则组成虚拟社区,虚拟社区内部的沟通和交流更加便捷有效。
Internet诞生本身即是为了共享,从20世纪70年代末的BBS [2]到目前的博客(Blog)[3]、维基(Wiki)[4]、威客(Witkey)[5]、Orkut[6]、Wallop[7]、Digg[8]、Decilious[9]、Flickr[10]等,出现了很多社会网络的应用。
BBS:BBS全称Bulletin Board System(电子公告板),BBS能够发布内容,用户交流,是最初信息共享交流的雏形,我们认为BBS可以算作是最早的网络共享系统的雏形。目前已经有了基于P2P的BBS(Saku)[11],不需要类似于当前论坛的中心服务器,所有的数据分布存储于用户节点上。
Blog:中文名博客,是当前网络上流行一种信息表达形式。它顺序地记载一些想法、评论等,并且通过超级链接把相关的资源组织起来,从而形成一种对某一信息资源的小型信息库,使得信息以此为扩散地或集中点。博客通过Trackback的方式互相链接起来,组成一个类似于社会网络的知识网络。但是博客内容主要是个人思考之类,自有知识储存体现不多,可谓有思想而无知识;基于Web发布,不便于共享和交流。因而就其本质来说主要是一种基于Web的个人表达工具,而不是完善的网络共享机制。
Wiki:中文名维基,Wiki是一种多人协作的写作工具。Wiki站点可以有多人(甚至任何访问者)维护,每个人都可以发表自己的意见,或者对共同的主题进行扩展或者探讨。与大多数网络亚文化一样,Wiki也同样是体现开放、合作、平等、共享的网络文化。目前的Wiki多是基于中心服务器的。Wiki使用版本控制系统来维护数据的一致性。Wiki的版本控制系统能够保证内容被篡改之后回滚至以前正确的版本。Wiki更类似于创作共享模式,在共同创作一个文档的过程中,作者更多的在付出而非收获,无法实现真正意义上的知识共享。同BBS类似,目前已经有了基于P2P的Wiki系统[12],将写作过程中产生的内容分布存储于所有作者节点上,不需要中心化的服务器。
Witkey(威客):通过互联网把自己的智慧、知识、能力、经验转换成实际收益的人,他们在互联网上通过解决科学,技术,工作,生活,学习中的问题从而让知识、智慧、经验、技能体现经济价值。威客模式也不是真正的知识共享的方式。
Orkut:社会化交友网站。用户是独立节点,通过用户之间的关系可以建立很好的网络,除了论坛的帖子,和节点相关的内容主要是个人资料和关系,除了继续发展你的关系,这样的网络很难有更多的用处。网络结构:强。内容:弱。内容处理方式:弱。
Wallop:社会化交友网站。有一个类似Orkut的网络,以用户的Blog、照片、媒体文件等作为内容,通过网络可以方便得知属于你的网络中的其他用户的信息。网络结构:强。内容:中。内容处理方式:中。
Digg:社会化信息挖掘网站。网络结构比较松散,但网络中的节点(用户)提供大量的内容,对内容有极好的重组方式。网络结构:弱。内容:强。内容处理方式:强。
Decilious:社会化信息挖掘网站。网络结构比较松散,但网络中的节点(用户)提供大量的内容,对内容有极好的重组方式。网络结构:弱。内容:强。内容处理方式:强。
Flickr:社会化图片共享网站。通过关系或者兴趣组成一定的网络结构,节点(用户)提供大量的内容,通过tag和group等对内容进行重组。网络结构:中。内容:强。内容处理方式:中。
2.2 量化个人兴趣的方法的研究现状
现有对个人兴趣进行统计和计算的方法主要有以下几种:
(1)基于信息统计的用户档案匹配方法:该方法通过显式的方法(如问卷调查)收集用户的个性特征、需要、兴趣等信息。通过用户档案的匹配显式的发现具有相同兴趣的用户。
(2)基于用户打分享四度计算的方法。通过显式收集用户对购买过的产品、看过的书、电影、音乐等资源的打分值,来发现具有相似兴趣的用户。这种方法主要应用在写通过率技术中。性能最好的相似度计算方法主要有Pearson相关系数和向量相似度量中。
(3)基于隐式信息挖掘的方法。用户相互通信、交流、浏览网站等行为也隐藏了大量表征用户兴趣的信息,这些信息可用于反映人们之间的联系。
(4)基于社会网络构建的方法。社会网络构建的关键是通过收集用户彼此间的资源和信息交换来建立关联关系。
(5)基于小世界网络的方法。
2.3 社会网络发展趋势
社会网络需要解决三个问题,首先是网络结构的形成,即通过什么样的技术和手段将独立节点连接起来;其次是解决社会网络的内容,即每个节点能够为社会网络提供怎样的内容。最后社会化网络需要有性能较好的通过网络处理内容的方式,即以什么样的方式重新组合和处理网络中各个独立节点的内容。
当前网络结构形成的方法多种多样,但是通常是需要借服务器来建立社会网络,P2P技术是当前研究的热点,其核心观念是对等的观念,P2P技术不需要服务器,其核心特点包括伸展性、负载均衡、异构性、自适应开销、可扩展性、可用性、容错性、匿名性。可以预见,采用P2P技术来构建底层网络拓扑将会是今后的一个发展趋势。
社会网络的内容来源杂乱,内容数量巨大,因此需要以合适的方法来处理内容,以尽可能提取出准确的关于内容的信息便于用户使用。对内容的处理需要使用到分词技术,现有的分词技术往往是基于词表或者统计的,效率比较低下,因此有必要研究更好的分词算法,做到更加智能的分词。可以预见,对社会网络中内容的处理将向着智能化、语义化的方向发展。
内容在经过分词处理后,得到了较准确的关于内容的信息,如何有效地将内容传递给用户是一个值得深入研究的课题。基于用户存储的内容以及用户搜索内容的行为计算出用户的兴趣矢量,根据用户兴趣矢量计算用户之间的相似度,从而形成自组织社会网络;计算内容的兴趣矢量,根据用户兴趣矢量,向用户进行个性化内容推荐,这将是今后社会网络通过网络处理内容的方式的发展趋势。
社会网络的发展还处于起步阶段,要解决的问题还很多,值得深入探讨和研究的内容也很多。因此很有必要深入研究社会网络的三个要素,争取在拓扑结构构建,内容处理算法,内容分发算法方面有所突破,构建更好的社会网络。
三.课题在理论与实践上的意义,论文预期成果的学术价值与应用价值
3.1 课题在理论上与实践上的意义
本课题的基础是社会网络理论。一直以来,研究者之间进行交流的方式方法比较简单,通常是通过发表论文的方式来进行交流。每位研究者通常维护自身的一个巨大的论文库,通过科研文献管理软件将这些文献管理起来。显而易见的,研究者之间交流的渠道是不通畅的。本课题基于研究者的兴趣构建科研文献社会网络,首先根据研究者现有文献库以及研究者的行为分析出研究者的兴趣,进而根据研究者的兴趣,计算出不同研究者之间的兴趣相似度,从而形成自组织的研究者网络;同时,根据研究者的兴趣,定期或不定期的向用户做内容推荐。这样一个科研社会网络对于研究者研究工作的促进作用是巨大的。
在理论上,本课题将P2P技术和社会网络分析方法相结合,探寻信息共享的基础理论——计算机网络、社会网络分析中相关研究成果的新结合点,深入研究在现有理论基础上如何更好的满足研究者科研文献资料的需求,提出了分布式、高效的基于兴趣的科研社会网络这种文献资料共享模式,并明确提出了科研社会网络软件的整个架构,同时,提出了一个根据用户存储的资料和用户行为计算用户兴趣的模型和算法;并在此基础上提出了根据用户兴趣计算用户之间相似度的算法,以形成自组织社会网络;同时提出了计算内容兴趣倾向矢量的算法。在实践上,课题设计并实现了一个基于兴趣的科研社会网络软件。
3.2 论文预期成果的学术价值与应用价值
本课题预期的成果是一个高可用性的基于研究者兴趣的科研社会网络软件。其学术价值包括提出了结合P2P技术构建社会网络底层拓扑的算法;提出了根据用户现有资料以及用户行为计算用户兴趣矢量的算法;根据用户兴趣矢量计算不同用户之间相似度的算法;计算内容兴趣倾向矢量的算法。这些算法都是目前研究的热点。
从应用角度来说,本软件主要面向的是广大研究者群体。当前研究者广泛使用的文献管理软件中管理的文献以及研究者的笔记等是科研社会网络主要的内容来源,这样可以保证系统有大量的内容输入。同时科研社会网络软件能够让研究者找到更多的文献资料,允许研究者之间进行相互交流,根据研究者的兴趣形成自组织兴趣社区,定期不定期的根据研究者的兴趣项研究者推荐个性化的内容。可以预见,将会有大量研究者愿意使用本系统。
从实用的角度来说,软件部署简单,不需要服务器,并且网络的容错性和鲁棒性都很好,同时网络维护文件和数据的一致性,并且保证网络的高可用性。
四.课题需要解决的关键理论和实际问题
本课题的最终成果是构建一个P2P社会网络,其中的核心工作包括设计实现P2P结构化路由算法、冗余复制策略、副本管理机制、自组织社区形成和个性化内容推荐。P2P结构化路由算法是构建底层网络的基础;冗余复制策略是指内容如何存储,即存储策略;副本管理机制是指如何对存储的副本进行管理;自组织社区是指按照用户兴趣将用户组建成不同的社区;个性化内容推荐是指根据用户行为,分析用户兴趣,从而推荐用户感兴趣的内容。因此,理论上共需要解决五个问题:P2P结构化路由算法;冗余复制策略;副本管理机制;自组织社区构建;个性化内容推荐。
4.1 科研社会网络底层拓扑构建技术
科研社会网络底层采用P2P技术来搭建,重点需要研究P2P路由算法和资源查询算法。
P2P结构化路由算法提供了如下四个机制:
节点加入机制:允许节点动态加入网络,同时以一种合理的机制向网络宣告新节点的存在。
节点离开机制:允许节点动态离开网络,提供检测机制检测节点的离开,以合理的方式向网络通知节点的离开。
查询路由机制:节点(用户)在查询是路由机制保证查询请求的顺利路由,并且返回查询结果。
发布路由机制:当有新的内容要发布时,路由算法保证能够找到合理的节点来存储内容,找到合适节点的过程即为发布路由机制。
在科研社会网络中,我们通过P2P结构化路由算法搭建底层网络拓扑,将不同的节点连接起来,以实现资源的发布、搜索定位。采用Kademlia协议[35]作为网络底层的基础协议。
4.2基于分词的用户兴趣矢量算法
计算用户的兴趣矢量,首先必须对用户现有资料进行分词以获得足够的关于用户兴趣的关键词,同时需要获取用户日常行为中的关键词,在此基础上,计算用户的兴趣矢量。
对本地文档的处理包括三个部分,关键字提取、本地文档索引和本地文档搜索。
词是最小的能够独立活动的有意义的语言成分,然而汉语文本中词与词之间没有明确的分隔标记,而是连续的汉字串。自动识别词边界,将汉字切分成正确的词串的汉语分词问题是关键字提取的核心技术。分词技术实际上是将文档中的字进行拆分,对每个字需要根据其上下文甚至语境给出最佳的理解,在此基础上将字再组合成词,作为文档的关键信息。整个过程是一个先拆分再结合的过程。
现有的分词算法主要包括:
(1)基于词表的分词——最大匹配(MM)。这是一种有着广泛应用的机械分词方法,该方法根据一个分词词表和一个基本的切分评估原则,即“长词优先”原则,来进行分词。小规模的测试结果显示,其正确率高达95.422%,速度为65000字/分钟。
(2)基于统计的分词。这种方法首先切分出与词表匹配的所有可能的词,这种切分方法为“全切分”,运用统计语言模型和决策方法决定最优的切分结果。小规模的测试表明,其正确率为96.252%,分词速度40000字/分。
(3)基于规则和基于统计相结合。这种方法首先运用最大匹配做初步切分,再对切分的边界处进行歧义探测,发现歧义再运用统计和规则相结合的方法来判别正确的切分。小规模的测试表明,这种方法的准确率达到97.948%,分词速度为20000字/分。
为了提高分词的准确率,考虑采用基于规则和基于统计相结合的分词算法,同时在现有算法基础上进行改进,提高分词的准确率和速度。
在分词结束后,如何根据现有关键字来衡量用户的兴趣并进而建立用户兴趣矢量。设用户A有n个关键字Key1,……,Keyn,每个关键字出现的次数为Num1,……,Numn;则对于关键字Keyi其权重为Pi =
。将关键字按照权重由大到小,取前m(m待定)个关键字为Keym1,……,Keymm及其权重Pm1,……,Pmm,构成一个二维向量,,将此二维向量定义为矢量I,定义I为用户A的兴趣矢量。
4.3基于兴趣矢量的自组织社区生成算法
现有的自组织社区生成方法主要有:
(6)基于信息统计的用户档案匹配方法:该方法通过显式的方法(如问卷调查)收集用户的个性特征、需要、兴趣等信息。通过用户档案的匹配显式的发现具有相同兴趣的用户。
(7)基于用户打分享四度计算的方法。通过显式收集用户对购买过的产品、看过的书、电影、音乐等资源的打分值,来发现具有相似兴趣的用户。这种方法主要应用在写通过率技术中。性能最好的相似度计算方法主要有Pearson相关系数和向量相似度量中。
(8)基于隐式信息挖掘的方法。用户相互通信、交流、浏览网站等行为也隐藏了大量表征用户兴趣的信息,这些信息可用于反映人们之间的联系。
(9)基于社会网络构建的方法。社会网络构建的关键是通过收集用户彼此间的资源和信息交换来建立关联关系。
(10) 基于小世界网络的方法。
设用户A的兴趣矢量为
=((
),……,(
)),用户B的兴趣矢量
=((
),……,(
))。则用户A和B的相似度使用如下算法计算:
(1)首先对
和
中关键字进行遍历,得到a个匹配的关键字记为
,……,
。
(2)对每个关键字
匹配
,如果|
–
| <= 1/m,则认为A和B有对关键字
有相同的兴趣,否则称A和B有对关键字
有不同的兴趣。设A和B有相同兴趣的关键字数目为b,记为
,……,
。
= (a + b*q)/ [m(1+q)],
。其中a为第一步中的匹配关键字数目a,q为待定的权重系数,b为第二步中相同兴趣的关键字数目b,m为进行比较的关键字的总的数目。
记为用户A和B的相似度。
当用户A和用户B发生联系的时候,用户A和用户B分别计算得到了
,当
threshold(0<threshold <1)时,用户A和B分别认为对方是自己的兴趣相同者,从而保存对方的信息,以便于今后进一步联系。
4.4基于兴趣矢量的个性化推荐算法
个性化推荐技术,即根据从资源中提取的特征进行内容推荐,或根据具有相似特征的用户或学习者对资源的获取顺序和规则来进行推荐。一般是基于用户的兴趣,偏爱,喜恶和目标,并将这些信息存储在服务器中进行推理和分析[36]。
推荐系统的属性特征主要包括:
1)背景数据,即在推荐过程开始之前系统所拥有的信息
2) 输入数据,即为了获得推荐用户必须和系统之间进行的通信信息
3)推荐过程,即用以利用上述两种数据形成推荐的算法
表4-1列举了五种个性化推荐技术。
技术
背景数据
输入数据
推荐过程
协同过滤
U对I的评价
u对I的评价
找出U中和u相似的用户,在此基础上推断他们对i的评价
基于内容的过滤
I的特征
u对I的评价
生成一个适合u的评价行为的分类器,并用来推断其对i的评价
人口统计数的
推荐技术
对U的人口统计学信息及其对I的评价
u的人口统计学信息
找出在人口统计学上和u相似的用户,用于推断他们对i的评价
基于功能的推荐技术
I的特征
在I中的项上描述u的偏好的功能函数
将函数应用到I中的项上决定对i的评价
基于知识的推荐技术
I的特征及其如何满足用户需要的知识
对u的需要或是兴趣的描述
推断i和u的需要间的匹配度
假设I是可能的推荐项集合,U是系统已知偏好的用户集合,u是系统需要做出推荐与预测的用户,i是我们需要对用户二的偏好做出预测的项。
表4-1 现有个性化推荐技术
在得到用户的兴趣矢量后,想要对用户进行内容的个性化推荐,还必须解决一个问题,就是对内容主题与用户兴趣的匹配程度进行计算。在科研文献社会网络中,个性化推荐技术尽管推荐的是内容,但是推荐技术是建立在自组织社区内部的,因为只有在自组织社区内部用户才能相互进行联系并且获得足够的对方信息。内容与用户兴趣匹配的准则是简单的,假设内容有关键字k个,则采用与计算用户兴趣矢量相同的方法建立内容兴趣矢量,用计算用户相似度的方法计算内容与用户兴趣的匹配程度,并定义一个推荐的阈值。
五.课题研究的基本方法,实验方案及技术路线可行性论证
5.1 课题研究基本方法
本课题采用分阶段,逐步递进的方式开展研究。课题研究过程中将始终坚持理论探索与实践检验相结合的方法。本项目将主要研究知识的分布式存储策略,相对应的,整个科研社会网络的体系架构如图1所示。

图1 科研社会网络体系架构图
5.2 实验方案
针对以上拟解决的关键理论问题,科研社会网络实验方案如下所述:
(一)搭建科研社会网络底层拓扑
首先搭建科研社会网络底层拓扑,实现网络的基本功能。科研社会网络拓扑图如图2所示。

图2 P2P社会网络网络拓扑图
(二)基于用户现有资料库进行分词,计算得到用户兴趣
(三)根据用户兴趣计算用户兴趣矢量,得到用户相似度
(四)根据用户兴趣与内容的匹配程度,进行内容的个性化推荐
5.3技术路线
技术路线为:改进并设计结构化P2P底层网络拓扑构建算法;设计用户兴趣矢量计算方法,设计用户相似度计算方法,构建自组织社区;向用户推荐符合用户兴趣的内容;细节上优化系统,开发出切实可用的实际系统并大规模部署。
5.3.1科研社会网络底层拓扑构建技术
拟采用Kademlia协议作为结构化P2P底层拓扑构建技术。Kademlia协议是第三代的基于动态哈希表的P2P拓扑构造协议。由于其简单性、对称性等特点使得Kademlia协议被应用于目前流行的一些应用,如Emule,BitTorrent等文件共享软件。
Kademlia协议以异或运算为距离度量的基础,建立了全新的DHT拓扑结构,相比较于其他算法,路由效率较高。Kademlia协议定义了四个操作:(1)PING操作;(2)STORE操作;(3)FIND_NODE操作;(4)FIND_VALUE操作。PING操作的作用是探测一个节点,用以判断其是否仍然在线;STORE操作通知一个节点存储 <key,value>对,以便以后查询需要;FIND_NODE操作用于查找离目标节点距离在一定范围内的k个节点信息。FIND_VALUE操作类似于FIND_NODE操作,只是FIND_VALUE操作只返回一个节点信息,即存储着要查找的值得信息的节点[42]。
当前Kademlia协议已经实现的功能在很大程度上能够满足科研社会网络的需求,但是考虑到研究者共享的特殊需求,需要修改Kademlia协议。当前Kademlia协议建立了Node和Value的映射以及Node和Node的映射,即用户和内容的映射以及用户和用户之间的映射。在科研社会网络中,还需要建立内容和内容之间的映射,同时还需要分析用户行为并且保存。
因此对于底层拓扑构建技术采取的研究方法是:(1)利用现有Kademlia协议,借鉴现有P2P文件共享系统中的应用方式;(2)针对研究者共享的特殊需求,修改并完善Kademlia协议;(3)通过小范围的试验,分析获取的实验数据,反馈并修改底层拓扑。
5.3.2基于分词的用户兴趣矢量算法
用户兴趣矢量算法研究技术路线为:考虑分词方法的改进;设计一个简单的兴趣矢量计算方法;深入了解现有的用户兴趣衡量的一些方法;借鉴并改进自己设计的算法;在软件中实现兴趣矢量算法并检验精确程度。
5.3.3基于兴趣矢量的自组织社区生成算法
自组织社区生成算法研究技术路线为:设计一个简单的自组织社区生成方法;深入了解现有的社区生成算法;改进自己设计的算法;在软件中实现自组织社区生成算法并检验效果。
5.3.4基于兴趣矢量的个性化推荐算法
研究方法为:(1)研究现有虚拟社区构建算法及个性化推荐算法;(2)考虑如何更加有效的反应出用户兴趣,从而改进算法;(3)将改进的算法在系统中实现。
5.4可行性论证
目前原型系统实验平台已经搭建成功。
本课题的研究建立在相关研究的成果基础之上,国内外已有一些成功经验可供借鉴,有一定的理论储备和一定的技术实现手段和工具,研究目标明确,内容符合实际;研究者对P2P底层覆盖网拓扑结构、数据分发机制、数据一致性维护和软件开发等相关问题有一定的专业知识能力。在课题组的老师和同学的指导帮助下,完全可以达到预期目标。
六.开展研究应具备的条件及已具备的条件,并估计在进行论文工作中可能遇到的困难与问题和解决措施
6.1 开展研究具备的条件
1) 收集了社会网络分析和P2P研究的相关资料,对课题的国内外现状、相关领域涉及的基础知识和系统设计所需要的技术有较为深刻的理解。
2) 本实验室有多年的网络多媒体开发经验,涉及网络协议、网络安全、网络多媒体传输等方面,其中我作为主要负责人完成了P2P VoIP——ppPhone [43]项目的开发,对P2P底层覆盖网拓扑结构理论上理解非常深刻,同时也极大的锻炼了我的工程实践能力,为本课题基于兴趣的科研社会网络软件的设计、实现、改进和完善打了坚实的基础。
3) 本实验室具备良好的软硬件开发环境,为本课题的研究提供了研究和实验平台。
4) 实验室的老师和同学理论和实践能力都很高,能在课题的研究中给予我理论和实践上的指导。
6.2 可能遇到的困难与问题
1) 目前国内外对该领域已有一定的研究,虽然可以借鉴许多优秀的研究成果,但也增加了创新难度;本人的研究方法尚有不足,还需改进。
2) 系统的设计和优化中,由于本人的项目开发实践相对较少,工程能力有限,可能遇到一些技术上的困难。
6.3 困难和问题的解决措施
对于遇到的困难,协作精神和集思广益的方法是制胜的关键。实验室的老师、同学无论是在工程实践还是理论探索方面都有着深厚的经验和技术积累。他们的指导对于本课题的研究将会提供不可估量的帮助。另外,课题组本身的不懈努力是所有工作进展的基础。遇到问题,从理论上深挖细究,从基础上寻找原因就一定能够有所收获。
七.论文研究的进展计划
1. 2007年11-12月:任务调研、确立研究目标、完成开题报告;
2. 2008年1-2月: 进一步改进和完善前一段时间实现的社会网络软件框架,搭建底层网络拓扑;
3. 2008年3月:用户兴趣衡量算法,设计并结合现有系统框架实现计算用户兴趣的模块;
4. 2008年4-5月:自组织社区构建模块,设计并实现到现有系统框架中。
5. 2008年6月:个性化推荐算法研究,设计并结合现有系统框架实现个性化推荐模块;
6. 2008年7-9月:实用化系统,应用到园区网,取得实验数据并反馈修改。
7. 2008年10-11月:整理近一年的研究工作,撰写毕业论文,准备答辩;
在研究关键技术期间,发表一到两篇与研究相关的论文。
参考文献:
[1] 罗杰文. Peer to Peer ( P2P ) 综述[J].
[2] Bbs. http://en.wikipedia.org/wiki/Bulletin_board_system[J].
[3] Blog. http://en.wikipedia.org/wiki/Blog[J].
[4] Wiki. http://en.wikipedia.org/wiki/Wiki[J].
[5] Witkey. http://www.witkey.com[J].
[6] Orkut.
[7] Wallop. http://mywallop.com/[Z].
[8] Digg. http://www.digg.com[Z].
[9] Decilious. http://del.icio.us/[Z].
[10] Flickr. http://www.flickr.com/[Z].
[11] Saku. http://shingetsu.info/[J].
[12] Wiki P. http://sourceforge.net/projects/wooki/[J].
[13] 陈贵海李振华. 对等网络:结构应用和设计[M]. 2007.
[14] Gnutella. http://www.gnutella.com http://rfc-gnutella.sourceforge.net[J].
[15] Bittorrent. http://www.bittorrent.com[J].
[16] Mcmillan B. The BitTorrent Protocol[C]. In: 2004.
[17] Edonkey/emule. http://www.edonkey2000.com http://www.emule-project.net[J].
[18] Bickson Y K A D. The eMule Protocol Specification[C]. In: 2005.
[19] Freenet. http://freenetproject.org[J].
[20] Ian Clarke, Oskar Sandberg, Brandon Wiley A T W H. Freenet: A Distributed Anonymous Information Storage and Retrieval System[C]. In: 2000.
[21] Kazaa. http://www.kazaa.com[J].
[22] Jian Liang,rakesh Kumar K W R. The KaZaA Overlay: A Measurement Study[C]. In: 2004.
[23] 天网maze. http://maze.pku.edu[J].
[24] Gpu. http://gpu.sourceforge.net/[J].
[25] Seti@home. http://setiathome.berkeley.edu/[J].
[26] net D. http://www.distributed.net/[J].
[27] Groove. http://www.groove.net[J].
[28] Granary. http://hpc.cs.tsinghua.edu.cn/granary/[J].
[29] Oceanstore. http://oceanstore.cs.berkeley.edu/[J].
[30] Ben Y. Zhao, John Kubiatowicz A A D J. Tapestry: An Infrastructure for Fault-tolerant Wide-area Location and Routing[C]. In: 2001.
[31] Past. http://research.microsoft.com/~antr/PAST/[J].
[32] Druschel A R A P. Pastry: Scalable, decentralized object location and routing for large-scale peer-to-peer systems[C]. In: IFIP/ACM International Conference on Distributed Systems Platform.2001.
[33] Cfs. http://pdos.csail.mit.edu/papers/cfs:sosp01/[J].
[34] Ion Stoica, Robert Morris, David Karger, M. Frans Kaashoek H B. Chord: A Scalable Peer-to-Peer Lookup Service for Internet Applications[C]. In: SIGCOMM’01.San Diego, California, USA.: 2001.
[35] Maziereg P M A D. Kademlia: A Peer-to-Peer Information System Based on the XOR Metric[J]. 2002.
[36] Schwab,kobsa,a. &. Learning User Interests through Positive Examples Using Content Analysis and Collaborative Filtering[J]. User Modeling and User-Adapted Interaction. 2001.
[37] Zengc,xingcx&zhoul. Similarity measure and instances election for collaborative filtering[C]. In: Proceedings of the twelfth International World Wide Web Conference.2003.
[38] GoldbergkgUptad,digiovannim&naritah. Jester 2.0: Evaluation of a new linear time collaborative filtering algorithm[C]. In: International ACM SIGIR Conference on Research and Development in Information Retrieval.1999.
[39] Burke R. Knowledge-based Recommender Systems.[J]. Encyclopedia of Library and Information System. 2000.
[40] Gutman R H. Merchant Diferentiation through Integrative Negotiation in Agent-mediated Electronic Commere[D]. MIT, 1998.
[41] Rich E. User Modeling via Stereotypes[J]. Cognitive Science. 1979.
[42] Mmx. Kademlia 协议原理简介[J]. 2006.
[43] Ppphone. http://sourceforge.net/projects/ppphone[J].