毕业设计开题报告

基于Python新闻定制推送系统设计与实现开题报告

时间:2020/10/26 21:18:15  作者:  来源:  查看:34  评论:0
内容摘要: 1、选题目的和意义: 随着互联网技术的发展与应用的普及,网络作为信息的载体,已经成为社会大众参与社会生活的一种重要信息渠道。由于互联网是开放的,每个人都可以在网络上发表信息,内容涉及各个方面。小到心情日志,大到国家大事。互联网...

1、选题目的和意义:

随着互联网技术的发展与应用的普及,网络作为信息的载体,已经成为社会大众参与社会生活的一种重要信息渠道。由于互联网是开放的,每个人都可以在网络上发表信息,内容涉及各个方面。小到心情日志,大到国家大事。互联网已成为思想文化信息的集散地,并具有传统媒体无法相比的优势:便捷性,虚拟性,互动性,多元性。

网络新闻热点通常形成迅速,多是人们对于日常生活中的各种问题发表的各种意见,评论,态度,情绪等,随着事件的发展而变化,是反映社会热点的重要载体之一。

网络爬虫是一种按照一定上网规则,自动的抓取万维网信息的程序或脚本。网络检索功能起于互联网内容爆炸性发展所带来的对内容检索的需求。搜素引擎不断发展,人们的需求也不断提高,网络信息搜索已经成为人们每天都有进行的内容。如何使搜索引擎能够时刻满足人们的需求,最初的检索功能通过索引站的方式实现,从而有了网络机器人。本课题来源于仿今日头条个性新闻推荐系统项目的建设,旨在为相关机构提供及时的网络信息服务。这些服务与现有的搜索引擎提供的服务不同,其重要特征主要体现在:及时性,专用性,人性化。

2、国内外研究现状综述:

国外在新闻个性化推送跨平台开发领域方面起步较早,同时也有着相对完整的结构体系,在这种具有领先地位的研究以及企业级别应用中都是有所体现的。在2008年HTML_5草案的发布,是HTML_5新特性以及跨平台移动客户端研究开发提供了技术上的可能性。在这个基础之上国内以及国外有关于跨平台开发移动客户端方面做了大量的研究。Adomavicius G和Sankaranarayanan R提出了一种多维推荐系统(md)的方法,它可以在现有推荐系统中的用户和项目的典型信息之外,根据额外的上下文信息提供建议。这种方法支持多维度、特征分析信息和建议的分层聚合。他们还提出了一种多维评级估计方法,能够选择与推荐上下文相关的二维评级段,并将标准协同滤波或其他传统的二维评级估计技术应用于这些段。对多维和二维评价方法进行了比较,并对两者之间的权衡进行了研究。此外,他们有一个进步点在于介绍了一种联合评价方法,该方法能够识别md方法优于标准二维方法的情况,并在其他情况下使用md方法和标准二维方法。不过单单根据上下文分析信息其实还是有一定的分析缺陷的,因为这样可能因为分析规则制定的局限性不能给出更加细致的建议。

最近几点,国内的开发移动客户端应用主要还是以原生的系统开发为主,但是在近两年内出现了大量的互联网公司,都在进行HTML_5跨平台上投入大量的研究。赵泉认为在个性化推荐中, 首先探讨用户兴趣的获取, 进而建立兴趣模型, 将其保存在兴趣库的存储介质中, 在以后的使用过程中, 其兴趣是不断修正的, 将兴趣与图书标记相匹配, 则其结果就是推荐。要实现个性化的推荐, 首先要得到个性化。获得用户兴趣的方法很多, 主要有几种:第一种是用户自己确定, 可以采用用户注册的时候直接确定兴趣的方法来实现, 但如果用户兴趣发生变化的话, 就会变得比较麻烦, 所以, 这种方式用来解决推荐系统冷启动等问题比较好。第二种方法是系统自动获得, 系统根据用户的浏览记录或借阅记录, 来逐步地确定用户的兴趣, 这是一个不断修正的过程, 也是目前研究比较多的内容。第三种方法是他人推荐, 通过采集与用户在一个圈子, 同一个社区等的兴趣, 通过这些共性的兴趣来进行推荐, 也就是说, 你朋友喜欢的, 你也应该喜欢。另外, 还可以借鉴微博等的标签的概念, 让读者在阅读书籍后可以对此书做一些标记, 即加标签。这些标记以及所加的标签是可以帮助推荐的。他更加注重用户画像的建立,而且它突出的特点在于不停的修正,这个特点非常好,因为人不是一成不变的是在不停变化的,这种分析兴趣的方式能既有更长的生命力。

总而言之,跨平台的移动终端应用,其市场前景相对较好,但是基于HTML_5的Web App 还是不够成熟,在今后两三年中Web App所占的市场份额会逐渐上升。然而Native App也不会退出市场,将会形成相互共存的时代,随着HTML_5的发展,Web App也会有着进一步的发展空间。

3、选题研究内容:

本文对于仿今日头条个性新闻推荐系统的设计与实现过程作出详细介绍,该系统的数据来源主要是网络网页新闻。本系统的运行流程大致如下:首先利用爬虫工具将新闻数据获取到本地数据库中,之后对其进行数据分析,最后将新闻内容信息以及分析结果在前台网页中进行可视化输出。

基于Python新闻定制推送系统设计与实现开题报告

系统综合用例图

基于Python新闻定制推送系统设计与实现开题报告

数据可视化功能结构图

第一章为绪论,主要阐明该课题的研究背景及其研究意义,简要说明国内外对于爬虫系统的研究现状,并介绍本论文的主要内容组成以及论文的组织结构。

第二章为系统开发知识准备,简要介绍进行本次仿今日头条个性新闻推荐系统开发所需要的相关理论和技术,主要包括爬虫技术的知识理论和J2EE技术、MySQL数据库管理系统以及ExtJS框架等相关知识,并对系统开发过程中用到的一些关键开源工具做出简要说明。

第三章对本系统进行需求分析,首先从技术可行性、操作可行性和经济可行性三个方面对系统可行性进行评估,随后对系统的用户对象和用户用况从管理员用户和普通用户两个角度进行了详细的分析,并分别总结出了相应的功能需求,最后对系统的性能需求进行简要分析。

第四章对本系统进行总体设计,包括数据库结构的总体设计以及系统功能模块的总体设计,并对数据获取功能模块的子模块以及数据可视化功能模块的功能结构做出了明确的划分,为系统详细设计与实现阶段的工作备好条件。

第五章对本系统的详细设计和实现过程做出说明,进行功能模块的详细设计并完成系统的开发实现工作,对于数据获取模块以及数据可视化模块进行了详细的设计实现和功能说明。

第六章进行系统测试和发布工作,首先从理论上对软件测试的目标和方法进行了简要介绍,之后设计多个测试用例对系统的相关功能模块进行了详细的测试并对测试结果进行分析,最后将本系统通过TOMCAT部署到了PC服务器上,完成了系统发布的过程。

第七章对于本次系统设计开发过程进行归纳和总结,阐述本次系统开发的意义并分析下一步需要进行的工作,最后对网络舆情分析系统的发展方向进行展望。

4、本选题研究技术路线、研究方法和要解决的关键问题

技术路线:

1)利用Python语言结合HTTPClient开源工具编写了一个针对新闻的可扩展的网络爬虫,该爬虫程序能够按照广度优先的爬行策略对新闻数据(包括图片信息)进行全面的定向抓取以及周期性的增量抓取;

2)采用HTMLParser对获取到的新闻信息进行元数据抽取,将新闻的编号、标题、内容、发布方、发布时间等元数据以及新闻图片等元数据解析出来并存入MySQL数据库中。

解决的关键问题:

通过使用该新闻爬取系统,用户能够实时的更新新闻信息,及时、全面、准确地掌握新闻热点动态,提高对于重大突发事件的处理能力,对于更及时,全面的了解各地的实时信息具有重要意义。

5、调研计划及主要参考文献

课题设计计划:

(1)确定选题、收集文献资料:2020年6月9日至2020年6月20日

(2)撰写开题报告并开题:2020年6月20日至2020年9月15日

(3)调查研究、实验:2020年9月22日至2020年12月26日

(4)形成论文(设计)初稿:2020年12月27日至2021年1月27日

(5)论文修改、定稿、打印:2021年1月28日至2021年3月29日

(6)提交论文(设计)、做好答辩准备:2021年4月1日至2021年4月10日

(7)参加答辩:2021年4月23日-4月24日

主要参考文献:

[1]王盟. 智能新闻推送系统的设计与实现[D].  2018.

[2]朱满洲. 基于协同过滤的个性化新闻推荐系统的设计与实现[D].

[3]刘焱. 基于云计算的网络新闻应急信息管理系统设计与实现[D].  2018.

[4]叶宇翔. 抽取自媒体新闻热词的技术实现[J]. 电脑知识与技术:学术交流, 2018, v.14(17):14-16.

[5]于韬, 李伟, 代丽伟. 基于Python的新浪新闻爬虫系统的设计与实现[J]. 电子技术与软件工程, 2018, No.131(09):204+258.

[6]李姣燕, 刘潇. 基于微信公众号个性化新闻推送平台设计与实现[J]. 电脑知识与技术, 2019(36).

[7]田江. 基于Python的新闻个性化推荐系统优化与实现[D].  2018.

[8]左卫刚. 基于Python的新闻聚合系统网络爬虫研究[J]. 武汉船舶职业技术学院学报, 2019, 000(001):122-125.

[9]王雪莲. 面向新闻媒体信息推送的APP设计与实现[D].  2018.

[10]崔迪, 吴舫. 算法推送新闻的知识效果——以今日头条为例[J]. 新闻记者, 2019, 000(002):30-36.

[11]郑宝瑞. 基于混合策略的新闻推荐系统设计与实现[D].  2019.

[12]周长敏, 王凌云. 基于云平台的智慧旅游信息推送系统的研究[J]. 电脑知识与技术:学术交流, 2018, 014(009):111-112.

[13]刘松吟, 刘德寰. 新型主流媒体新闻推送模式信息茧房效应研究[J]. 教育传媒研究, 2018, 000(005):17-20.

[14]王俊. 基于twitter的个性化新闻推荐系统的设计与实现[D].  2019.

[15]徐建东. 人工智能与新闻采编的融合和创新[J]. 新闻研究导刊, 2020, 011(005):156-157.

6、指导教师意见:

指导教师(签名):

年     月    日

7、开题审查小组审查意见:

教研室主任或组长签名:                 年    月   日

开题审查小组组成名单

组成

姓名

职称

所在单位

签字

组  长

说明:1、开题报告应在教师指导下由学生独立撰写,交指导教师审阅,并接受学校和系(院)检查。

  
相关评论
评论者:      验证码:  点击获取验证码
咨询QQ/微信:45157718 点击这里给我发消息 | 电话:13516821613 | 浙江杭州余杭区东港路118号雷恩科技创新园 | 网站支持:杭州摇亿网络科技 | 浙ICP备06056032号-6 |