1. AI大模型根本没法直接处理我们输入的原始文本，所有内容处理的第一步，都是先把文本转换成Token
2. 说白了，Token就是文本喂给模型之前，被拆分成的最小处理单元
3. 一个Token可以是一整个单词、单词的一部分、标点符号，甚至只是一个空格
4. 常用词通常只会被拆成1个Token，而长词、生僻词往往会被拆成更小的片段，比如英文的encoding就会被拆成encod+ing两段
5. 给大家一个通用的换算参考：1个Token大约对应4个英文字符，或是3/4个英文单词；不过这个数值不是固定的，会根据语种和分词器（Tokenizer）的不同发生变化
6. 完整的处理流程是这样的：先把文本分词转成Token，再把每个Token映射成对应的数字ID，接着把ID转换成模型能识别的向量，走完这三步，模型才会正式开始处理你的内容
7. 还有大家常听的「上下文窗口」，也是用Token来计量的——窗口的Token上限，直接决定了模型单次对话能「记住」多少内容
8. 最后一点大家肯定很关心：Token也是生成式AI的核心计价单位，我们平时用AI花的钱，全都是按Token的用量来结算的

上面说的还只是冰山一角，Token背后的底层逻辑远比你想的更有意思。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
GatePreIPOs首发SpaceX
24.79万热度
#
Gate13周年现场直击
91.22万热度
#
加密市场小幅下跌
18.41万热度
#
美伊冲突再起引发市场动荡
34.15万热度
#
KelpDAO跨链桥遭攻击
1.96万热度

到底什么是Token？搞懂AI的入门必修课

热门话题

GatePreIPOs首发SpaceX

Gate13周年现场直击

加密市场小幅下跌

美伊冲突再起引发市场动荡

KelpDAO跨链桥遭攻击

置顶