title | tags | created | modified | |||
---|---|---|---|---|---|---|
lib-ai-app-products |
|
2024-12-07 09:50:59 UTC |
2024-12-07 09:51:14 UTC |
-
- 纯粹免费的API也是有的,但是多限于轻量级的大模型,比如智谱AI的flash模型,Google的 Gemini 1.5 Flash。
- 目前主流的 API 接口都是采用相同的套路,即免费注册送固定的额度,然后再收费的策略。我反正是没有看到纯免费一直可用的 API 接口。
- DeepSeek和MiniMax是国内模型,包括其他厂商的国内模型也都有免费额度。不过Groq几个月来一直都是免费
- Groq是一家美国AI芯片公司,专注设计高性能的AI处理器,目前借助自研的AI芯片LPU,每秒能够输出近500个token。和GPT-4,Gemini对标,同一个问题所需的时间,Groq完全碾压了其他两者,输出速度比Gemini快10倍,比GPT4快18倍。
- Groq平台提供个人免费的API-KEY接口,不同的模型限制不同
-
- Fast AI inference for openly-available models like Llama 3.1
- Move seamlessly to Groq from other providers like OpenAI by changing three lines of code.
- On-demand Pricing for Tokens-as-a-Service
- Groq公司推出的全球最快的大模型推理服务达到每秒输出500个token,如何看待这一技术? - 知乎
- 一句话来说,这个芯片就是玩了个用空间换时间的把戏,把模型权重和中间数据都放在了 SRAM 里面,而不是 HBM 或者 DRAM。
- 这是我 8 年前在微软亚洲研究院(MSRA)就做过的事情,适用于当时的神经网络,但真的不适合现在的大模型。因为基于 Transformer 的大模型需要很多内存用来存储 KV Cache。
- Groq 芯片虽然输出速度非常快,但由于内存大小有限,batch size 就没法很大,要是算起 $/token 的性价比来,未必有竞争力。