prototipe
.
ai
AI Agent Cases
How to Create AI Agents
Courses
Features
Pricing
Sign In
Get Started
throughput
Categoria: modelos e inferência
Nesta Categoria
alucinação
async inference
attribution
auto-evaluation
avaliação automática
batch processing
bias
cadeia de pensamento
closed-source model
code generation
comparação de modelos
contagem de tokens
cost per token
custo por token
detecção de idioma
entendimento de linguagem natural
escolha de modelo
extended thinking
factual accuracy
faithfulness
foundation model
fundamentação
geração de dados estruturados
geração de resposta
groundedness
hallucination
inference
inference endpoint
inference latency
input tokens
language detection
latência
latency
limite de tokens
LLM-as-a-judge
LLM como juiz
LLM (Large Language Model)
max output tokens
model API
model-based evaluation
model bias
model cascade
model comparison
modelo
modelo de IA
modelo de linguagem
model provider
model selection
model serving
model versioning
multilingual model
multimodal
natural language generation (NLG)
natural language understanding (NLU)
open-source model
output tokens
precisão factual
processamento em lote
provedor de modelo
raciocínio
real-time inference
reasoning
reasoning tokens
response generation
resposta em streaming
resposta inventada
routing by complexity
SLM (Small Language Model)
source grounding
speech-to-text (STT)
streaming
streaming response
structured output generation
text-to-speech (TTS)
thinking budget
token
tokenization
tokenizer
velocidade de resposta
viés
vision-language model
Quantidade de requisições de inferência que o endpoint do modelo consegue processar por unidade de tempo, determinando a capacidade de escala do agente sob carga.