>要理解大模型为啥按>Tokens>收费>这个>问题,我们先得知道到底什么是所谓的tokens?
>“Tokens”常见释义为>“代币;令牌;标记;符号>” 。在计算机领域,它常指用于标识或验证的一种机制;在加密货币领域,通常指各种 >数字代币>;
而在语言学中,“Tokens”指语言符号,在语料库语言学里,“tokens”是>“形符”,即文本中出现的所有>词的个数。>tokens是什么?>那么在自然语言处理技术领域,简单来说,>Tokens(词元)是文本处理的基本单位>,也可以简单理解为模型“理解”文本的 >最>小片段>。>Token的划分方式取决于具体模型采用的>分词策略>。在某些情况下,如果使用了字节对编码(BPE)或者其他形式的>子词分词方法>,某些汉字或词语可能会被拆分成多个更小的部分,从而占据更多的token。>如腾讯混元大模型1Token ≈1.8个汉字,通义千问1Token ≈ 1个汉字,而英文 1 Token可能对应3-4个字母或一个单词。>自然语言Token化的过程,技术上叫做 >Tokenization>,即为将输入文本拆分为模型可理解的离散单元,它直接影响模型的计算资源和响应质量。>举例:
>在中文中:一个汉字通常为1个Token,但组合词可能拆分,比方说 >“人工智能”可能拆为“人工”+“智能”>。
>而在英文中:一个单词可能对应1个Token,如 “apple”,有可能是多个Token,如“ChatGPT” 拆为> “Chat” + “G” + “PT”>。
>理解了Tokens是啥了以后,我们就好理解为什么按tokens收费是比较合理的原因了。
>资源消耗>大模型的运行涉及高昂的>计算资源消耗>(如>GPU/TPU>算力),而Token数量直接决定了处理文本所需的计算量。按Token计费能更>公平>地量化>不同长度>文本的实际成本。>例如,处理1000万Token的长文本所需算力远高于短文本,按量收费可避免>“一刀切”>定价的弊端。>商业模式>Token计费将>输入和输出>的>文本>统一折算为可量化的单位,例如输入1k Token + 输出2k Token = 总费用3k Token,这样一来,用户可>直观控制成本>。相比之下,传统API>按次收费>(如每次0.01元)无法区分简单查询与复杂任务的资源差异。>另外,大模型的>研发、训练、部署>和>维护>成本极高,如训练成本可达数千万美元。按Tokens收费能分摊这些成本,尤其是>推理阶段>的实时算力消耗。>小结>但Tokens计费并非唯一模式,部分厂商采用混合收费,比方说:>订阅制+按Tokens 付费>,或针对轻量化模型提供免费额度。>目前Tokens定义缺乏统一标准,不同模型的中文Tokens对应字数不同,可能导致跨平台成本差异。但总体而言,Tokens作为>“AI世界的数字货币”>,已成为大模型商业化中最>主流的计费方式>。>往期推荐>1、>学习大模型技术,你必须搞懂神经网络架构到底是什么?>2、>揭秘:大模型的参数到底是什么?用大白话让你彻底搞懂>3、>从量化交易到AI颠覆者:揭秘DeepSeek创始人梁文峰的传奇之路
好了,本期内容就是这么多,希望能够帮助到您,感谢您能读到最后,如果觉得内容不错,请您点赞转发给予鼓励,咱们下期再见。
转载请注明出处: CHATWEB
本文的链接地址: https://www.chatweb.com.cn/post-58.html
-
推荐:一个先进的AI视频生成器!搞事情?
2025/04/06
-
GPT-4o杀疯了:现在修图靠‘说’就行!连我妈都做出了电商广告图
2025/03/30
-
DeepSeek新功能:批量生成视频,100个分镜视频只需几分钟!
2025/03/30
-
30家值得关注的AI公司精选了国内最值得关注的30家AI公司
2025/04/19
-
清华学霸团队出品的Kimi,好用到爆!
6天前
-
Prompt Optimizer:AI提示词优化工具
6天前
-
Google Gemini推出了Gems,可创建个人专属AI代理
5天前
-
Kimi的社区产品刚刚曝光,和OpenAI的是一件事吗?
6天前
-
GPT-4.1、Gemini 2.0 Flash、Claude 3.7 Sonnet等国际顶尖模型国内直充、无需科学上网
6天前
-
DeepSeek使用指南:从入门到精通
6天前
暂无评论