如何在Python中建立和训练线性和logistic回归ML模型

游戏攻略
kkatlas.com

翻译:雷锋字幕组(Key、君思)

线性回归与logistic回归,是目前最流行的两个机器学习模型。

我们可以用scikit-learn库的fit方法,在我们的训练数据上训练这个模型。

我们的x数组将包含以上的大部分变量,只排除Price(因为这就是我们试图预测的一列)和Address(因为它只有文本信息)。

于是,我们便成功地将数据集分成了一个x数组(即模型的输入值)与一个y数组(即模型的输出值)。在下一节,我们将学习如何进一步将数据集划分为训练数据与测试数据。

这些数据都是随机生成的,所以你会发现一些不太合理的细节(如某个数字本应该是整数,却有着多个小数位数)。

让我们建立x数组,并将它存储为变量x:

    在以后的课程中,我会说明必需导入哪些库,但不会再像这样进行详细的解释。

该区域居住人口的平均收入 该区域房屋的平均房间个数 房屋的出售价格 房屋的具体地址

2020年的大赛以“相约十年 心在一起”为主题,吸引了来自33个国家和地区的50个赛区的3000余名选手报名参赛,参赛视频累计网络播放量超过300万次。(完)

    总结一下,以下是本教程中需要导入的所有库:

正如之前所提到的,我们将用到一个房屋信息的数据集。数据集已经以csv文件的形式上传到我的个人网站,链接如下:

我们要做的第一件事,是将我们的数据分为一个x数组(包含我们用于预测的所有数据)以及一个y数组(包含我们试图预测的所有数据)。

建立机器学习的线性回归模型

    具体来说,我们将使用住房数据的数据集并尝试预测住房价格。在建立模型之前,我们首先要导入所需的库。

    最后,导入seaborn,这是另一个Python数据可视化库,可以让我们更轻松地使用matplotlib创建美观的可视化结果。

现在,我们已经将这个模型训练好了。你可以通过以下指令查看这个模型的每个参数:

划分数据集为训练数据和测试数据

“接下来的比赛中,希望选手们在演唱前调试好网络环境,在选曲上扬长避短,放平心态,不要将比赛结果看得太重,展现出最好的状态。”陈霞说。

这一数据集有着一系列特征,包括:

首先,我们要选择包含哪几列。你可以通过raw_data.columns指令得到该数据框的所有列名。其输出为:

巴萨最近几年在转会市场上花费了几个亿,但收不到成效,而只有1000万欧元的阿方索,他们却因为国籍问题就草草放过,真的是令人唏嘘。

而就在巴萨高层拒绝了阿方索之后的几个月,拜仁仅仅花费1000万欧元就从温哥华签下了这名左后卫,阿方索的成长十分迅速,已经成长为让世界瞩目的新星。

我们的x数组 我们的y数组 我们想要的测试数据大小

记者路易斯-塔皮亚在推特上透露:“在阿方索加入拜仁前的几个月,巴萨名宿斯托伊奇科夫就向巴托梅乌推荐了这名超新星。但巴托梅乌却回应说:他是个加拿大人,不用了,谢谢。”

这里的输出就好理解多了:

让我们打开黑箱,看看里面到底发生了什么。

    按照惯例,以别名pd导入pandas。你可以使用以下语句导入pandas:

还有一个更好的方法来查看所有参数,那就是将它们一并放进一个数据框里。这一步可以通过以下指令完成:

    按照惯例,以别名np导入NumPy。你可以使用以下语句导入numpy:

评委之一、北京语言大学艺术学院党总支书记陈霞在点评选手演唱时说:“这届选手态度认真、表现力强、音乐素养普遍很高。印象深刻的是演唱《大地飞歌》的选手,她音色明亮、音准节奏也都不错,把湖南妹子那股‘辣劲’唱了出来。”

巴托梅乌因国籍问题放弃签下阿方索

另一个有效获取数据集信息的途径,是生成散点图矩阵。你可以用seaborn库中的pairplot方法,并传入整个数据框作为该方法的参数。完整指令如下:

记者从主办方了解到,按照赛程安排,海外赛区与港澳赛区复赛于9月9日至13日举行,共评选出晋级选手30人。晋级选手将于9月17日和18日参加决赛,决出金银铜奖。复赛和决赛都将通过大赛指定平台面向全球直播。

本教程中将使用的数据集

下一步,就让我们开始建立我们的线性回归模型吧。

    接下来,我们需要导入matplotlib,Python中最受欢迎的数据可视化库。matplotlib通常以别名plt导入, 你可以使用以下语句导入matplotlib:

    接下来,我们需要导入NumPy,一个流行的数值计算库。 Numpy因其NumPy array型数据结构,以及reshape,arrange,append这些非常实用的方法而闻名。

然后,我们需要建立LinearRegression这个Python对象的一个实例。我们将它存储为变量model。相应代码如下:

train_test_split函数返回了一个长度为4的Python列表,其中的元素分别为x_train,x_test,y_train和y_test。然后,我们便可以通过Python的列表解包,将这些变量分配到各自对应的变量名下。现在,我们已经很好地划分了我们的数据集,是时候建立和训练机器学习的线性回归模型了。

    由于线性回归是我们在本课程中学习的第一种机器学习模型,在本教程中我们将使用人工创建的数据集。因为这样我们可以专注于学习机器学习的概念,避免在清洗和处理数据上浪费不必要的时间。

“最美不过夕阳红,温馨又从容……”71岁的毛里求斯选手杨国英是比赛中最年长的选手,他演唱了一首《夕阳红》,声线浑厚低沉富有磁性。他说,自己的中文不好,为了这次比赛专门学唱了这首歌,“我标注了每一个字的发音,再一遍遍地练习,花了很多时间才终于学会。”

    我们将导入的第一个库是pandas,它是源于”panel data”(面板数据)的复合词,是处理表格数据最受欢迎的Python库。

有了这些参数,train_test_split函数便会为我们划分数据了!如果我们希望我们的测试数据占全部数据的30%,可以通过以下代码来实现:

    你可以使用以下语句导入seaborn:

然后,建立y数组,并存储为变量y:

要向你的Jupyter Notebook中导入数据集,首先复制上述链接,粘贴到你的浏览器中进行下载。然后,将该文件移动到与你的Jupyter Notebook相同的文件夹下。

匈牙利赛区的李佳明演唱了一首《古老的歌》,凭借专业的美声唱腔获得高分。“我是四川娃,而这首歌唱的就是我的家乡。”李佳明说,歌词中有“巴山的日出月落”,还有“川江的帆影渔火”,一唱起就仿佛回到了家乡。

本教程的主题是:如何用Python中的scikit-learn库,建立、训练和测试你的第一个线性回归机器学习模型。

类似地,也可以通过以下指令查看所得回归方程的截距:

在我的上一篇教程里,你们已经学习了线性回归机器学习算法背后的历史和理论。

“文化中国·水立方杯”海外华人中文歌曲大赛自2011年以来,已连续举办十届,广受海内外关注与好评。

现在,数据集已被导入并存储为名为raw_data的变量。你可以用名为info的方法(method)得到该数据集的一些大致信息。具体来说,运行指令raw_data.info()将得到:

完成这一步后,输入以下Python指令将向你的Jupyter Notebook导入房屋数据集:

Related Post