字幕组双语原文:如何在Python中建立和训练线性和logistic回归ML模型?
英语原文:HowtoBuildandTrainLinearandLogisticRegressionMLModelsinPython
翻译:雷锋字幕组(Key、君思)
线性回归与logistic回归,是目前最流行的两个机器学习模型。
在我的教程里,你们已经学习了线性回归机器学习算法背后的历史和理论。
本教程的主题是:如何用Python中的scikit-learn库,建立、训练和测试你的第一个线性回归机器学习模型。
第1节:线性回归
本教程中将使用的数据集
由于线性回归是我们在本课程中学习的第一种机器学习模型,在本教程中我们将使用人工创建的数据集。因为这样我们可以专注于学习机器学习的概念,避免在清洗和处理数据上浪费不必要的时间。
具体来说,我们将使用住房数据的数据集并尝试预测住房价格。在建立模型之前,我们首先要导入所需的库。
本教程中将使用的库
我们将导入的第一个库是pandas,它是源于paneldata(面板数据)的复合词,是处理表格数据最受欢迎的Python库。
按照惯例,以别名pd导入pandas。你可以使用以下语句导入pandas:
importpandasaspd接下来,我们需要导入NumPy,一个流行的数值计算库。Numpy因其NumPyarray型数据结构,以及reshape,arrange,append这些非常实用的方法而闻名。
按照惯例,以别名np导入NumPy。你可以使用以下语句导入numpy:
importnumpyasnp接下来,我们需要导入matplotlib,Python中最受欢迎的数据可视化库。matplotlib通常以别名plt导入,你可以使用以下语句导入matplotlib:
importmatplotlib.pyplotasplt%matplotlibinline语句%matplotlibinline将使我们的matplotlib可视化效果直接嵌入到JupyterNotebook中,使它们更易于访问和解释。
最后,导入seaborn,这是另一个Python数据可视化库,可以让我们更轻松地使用matplotlib创建美观的可视化结果。
你可以使用以下语句导入seaborn:
importseabornassns总结一下,以下是本教程中需要导入的所有库:
importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt%matplotlibinlineimportseabornassns在以后的课程中,我会说明必需导入哪些库,但不会再像这样进行详细的解释。
导入数据集
正如之前所提到的,我们将用到一个房屋信息的数据集。数据集已经以csv文件的形式上传到我的个人网站,链接如下: