概述

 
早期的NLP除了分词外,还有以下内容
- 词性标注,名词,动词,形容词 ... 
- NER,命名实体识别,人名,地名,公司名称等
- 信息提取 
- 句法分析,语义分析
- 动名词短语挖掘

 
其处理方法更多是靠规则,工作量比较大
有了transformer,尤其是大模型之后,文本类工作基本由交大模型处理了... 
- 甚至连分词都不用做了,扔给大模型一段文本,告诉大模型要做什么可以了


 


 

    

 


nn.Embedding

num_embeddings

 
nn.Embedding中num_embeddings理论上指索引的个数,
但这有个前提,索引编码从0开始,并且一个连一个,
不能跳跃,一般情况下也不会跳跃,但跳跃也没有关系

实际上num_embeddings指提供的索引中的最大值 
比如,本例如果num_embeddings低于8将报错,而实际上的索引个数只有4个
正常情况下索引编码都是从0开始,也无跳跃

 

    

 

    
参考