损失函数(loss function)是用来估量模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风...
Gini Index For Decision Trees (决策树中特征的基尼指数计算方法)
Before starting with the Gini Index, let us first understand what splitting is and what are the meas...
Transformer代码完全解读
2017年谷歌在一篇名为《Attention Is All You Need》的论文中,提出了一个基于attention(自注意力机制)结构来处理序列相关的问题的模型,名为Trans...
优化模型训练时间-BERT
相信很多人都知道Hugging Face,也都用过它的Transformers预训练语言模型,但你们有没有觉得它训练的有点太慢了呢?这时候,手把手教你怎么让训练时间缩短一半。 训练BERT 首先我们要...
优化模型训练时间-Transformer
周末在家发现了一个挺有意思的项目: 「也就是将你模型中的参数全部存储为一个连续的内存块,加速你的模型训练。」 于是我抱着试试看的心态,基于Fairseq和LightSeq分别实现了两个单层的Trans...
总结:Bootstrap(自助法),Bagging,Boosting(提升)
前言 最近在理清一些很必要的也很基础的东西,记录一下,结合网上和文献,自己也有些易化使之更轻松理解,如有错误,请不吝赐教,多谢! Bootstrap(自助法) Bootstrap是一种抽样方法 核心思...
基于pytorch实现transformer以及longformer以及代码详解
以下是一个基于PyTorch实现Transformer模型的简单示例代码,并对每个步骤进行了详细的注释。请注意,这个示例主要着重于模型的实现,不包括数据处理和训练部分。 import torch im...
分类性能度量指标 : ROC曲线、AUC值、正确率、召回率
在分类任务中,人们总是喜欢基于错误率来衡量分类器任务的成功程度。错误率指的是在所有测试样例中错分的样例比例。实际上,这样的度量错误掩盖了样例如何被分错的事实。在机器学习中,有一个普遍适用的称为混淆矩阵...
10个机器学习中常用的距离度量方法
距离度量是有监督和无监督学习算法的基础,包括k近邻、支持向量机和k均值聚类等。 距离度量的选择影响我们的机器学习结果,因此考虑哪种度量最适合这个问题是很重要的。因此,我们在决定使用哪种测量方法时应该谨...
PyTorch 基础篇(2):线性回归(Linear Regression)
# 包 import torch import torch.nn as nn import numpy as np import matplotlib.pyplot as plt # 超参数设置 in...