4000-9696-28

《唐人街探案3》票房如何,有监督机器学习算法告诉你!

2021年02月07日 10:07供稿中心:北大青鸟市场部

摘要: 《唐人街探案3》票房如何,有监督机器学习算法告诉你!

在人工智能的众多应用方向中,最重要的方向之一便是机器学习,在机器学习中又分为有监督学习无监督学习深度学习等,今天我们要介绍的便是有监督机器学习。

有监督机器学习指的是通过有标记的训练样本集去进行学习训练,获得一个最优模型,此后同类的数据可按照此模型进行输入,根据输出的结果进行预测、分类,在像人一样进行思考的道路上实现第一步。常见的有监督学习算法包含线性回归算法、决策树、支持向量机、KNN。


那这些算法具体又是怎么样呢?我们一起来看看吧。为了帮助大家更好理解、吸收,我们以预测《唐人街探案3》电影票房为例进行讲解~


KNN,即KNearestNeighbors,K个最近的邻居,指的是当预测集中来了一个新的数据时,我们看这个数据距离它最近的K个点分别是什么,从而判断新数据是什么类别。春节档马上上映电影《唐探3》(下图中的小绿点),我们要预测它的票房,这时候可以获取同类电影、同类导演、演员、上映时间、上映时长的电影数据,计算《唐探3》到这些电影(下图中的小红点、小蓝角)之间的距离,看看前K个的值,如果前K个值中大部分是5亿~10一,少部分是低于5亿,少部分是高于10亿,那么预测《唐探3》票房在5-10亿是最可能的。


在KNN算法中,K的值是很重要的,K过小或过大,都会对结果有影响,因此在实际操作中,也需要通过不断的实践,找到最合适的K值。KNN算法的好处是简单、模型训练时间快、预测效果好,缺点是耗内存、速度慢、对不相关的数据规模敏感,因为存储了大量的数据、每个数据逐次计算。当数据量较大时,可以选择使用KNN算法。



线性回归算法,即LinearRegression,线性指的是直线型关系,两个变量之间的关系是一次函数(如y=a*x+b),通过对大量数据进行处理,找到符合数据之间的规律关系,从而对新的值输入时进行结果预测,比较常见的是股价预测、电影票房预测等场景。


以预测春节档马上上映的《唐人街探案3》票房为例,已知数据有电影上映时间、价格、拍摄国家、电影类型、观影时长、演员阵容、上映电影院数量、上映时长、宣传平台、宣传时长、电影票房等数据,基于基准数据,我们可以计算出电影票房与电影之间的关系(y=a1*x1+a2*x2+a3*x3+a4*x4+a5*x5+...+b),再将《唐探3》的对应数据带入之后,大概就能得到预估票房了。


在线性回归算法中,还有一个重要的模型便是损失函数,即用来估量预测值与真实值之间的不一致程度,损失函数越小,模型效果越好,我们可以通过损失函数来调优线性回归模型。



决策树算法,是与线性算法相对的,在决策树中是一个类似N叉树的树形结构,每一个数内部节点代表对特征的一个测试,树的分支代表测试结果,最高层就是根节点。在决策树模型的生成中,一般包含特征选择、决策树生成、决策树修剪三部分,在特征选择中,一般对实例的某一特征进行测试。在构造决策树时,首先把所有的训练数据都放在根节点,选择一个最优特征,按特征把训练数据分割成子集,如果子集可以被正确分类,则继续构造叶子节点,根据测试结果把实例分配到子节点,每个子节点都对该特征的一个取值,不断的进行测试分配,直到所有子集都分配到叶子节点。


我们还是以《唐人街探案3》为例,我们拿到了所有电影的票房数据,并且设定了电影票房的相关属性,包括电影类型、上映时间、拍摄成本、导演水平、演员评价等,通过决策树模型来训练电影票房与对应属性的关系,得到如下决策树模型,我们再把《唐探3》的相关电影属性进行代入,预测电影票房。



预测电影票房只是机器学习中的一种实践,只要有了对应的数据集,我们可以预测房价、股价、天气走势,甚至是疫情走势。人工智能正在让我们的生活变得越来越简单、可控,而其对应的有监督机器学习算法你掌握了吗?今年春节档上映的《唐人街探案3》票房你又预测多少呢?

文章来源“AI课工场”

关于我们
公司简介
发展历程
青鸟荣誉
联系我们
加入我们
青鸟课程
BCVE视频特效课程
BCUI全链路UI设计
BCSP软件开发专业课程
BCNT网络工程师
学习客户端下载
青鸟优师
青鸟云课堂
微信 公众号 咨询 顶部 首页
官方新版意见收集

*

官方新版意见收集

提交成功,感谢您的反馈。

我们会认真阅读和考虑每个用户的反馈。