Azure API Management è una piattaforma che consente di pubblicare, proteggere, trasformare, mantenere e monitorare API in modo centralizzato. Offre funzionalità[ avanzate come gestione del traffico, applicazione di policy, controllo degli accessi e analytics. In particolare, è utile quando vogliamo esporre modelli di intelligenza artificiale tramite endpoint sicuri e governati.
Una delle novità più interessanti recentemente introdotte in Azure AI Foundry è la possibilità di importare direttamente i suoi endpoint in API Management. Questa nuova integrazione consente di centralizzare il controllo degli endpoint di modelli AI distribuiti e di esporli facilmente tramite un'API REST. Il vantaggio è triplice: oltre a semplificare l'integrazione con applicazioni esterne e migliorare la visibilità operativa e la gestione della sicurezza e delle performance, consente anche di sfruttare appieno le funzionalità di API Management come la generazione automatica della documentazione API, la personalizzazione delle risposte attraverso le policy, e l'associazione a prodotti per la gestione degli accessi e delle sottoscrizioni.
Per importare l'API, accediamo al portale di Azure e navighiamo nella nostra istanza di API Management. Da lì, scegliamo di aggiungere una nuova API selezionando Azure AI Foundry come risorsa.

Prima di tutto scegliamo il progetto AI Foundry da esporre.

Configuriamo poi il nome visualizzato e il base path. A seconda dei client supportati, selezioniamo l'opzione Azure OpenAI o Azure AI.

La differenza principale è nel percorso: Azure AI usa /models con nome nel corpo; Azure OpenAI usa /openai/deployments/{deployment} con nome nel path.
Possiamo anche definire politiche per la gestione del consumo di token, la cache semantica e la sicurezza dei contenuti. Per limitare l'utilizzo dei token, possiamo applicare la policy llm-token-limit, che consente di impostare soglie di consumo (per minuto, ora o giorno). Se il limite viene superato, il servizio restituisce un errore 429 o 403. È possibile anche stimare i token del prompt in anticipo per bloccare richieste prima del backend.

Per monitorare l'utilizzo, la policy llm-emit-token-metric registra metriche su Application Insights, tracciando il numero di token usati per prompt, completion e totale.

Queste metriche possono essere analizzate per API ID, client IP o subscription ID, migliorando il controllo e la reportistica.
Per ottimizzare la performance, si può abilitare la cache semantica usando le policy azure-openai-semantic-cache-lookup e azure-openai-semantic-cache-store.

Queste analizzano la similarità semantica delle richieste per recuperare risposte precedenti simili, riducendo latenza e richieste al backend. Questo approccio è particolarmente utile per prompt ripetitivi o standardizzati e per usufruirne è necessario di Redis Enterprise Cache.
A questo punto possiamo procedere a testare il modello. L'autenticazione utilizza gli stessi meccanismi previsti da API Management, come l'identità gestita dal sistema. Questa viene automaticamente configurata insieme a policy che indirizzano le richieste verso il backend, garantendo un'integrazione coerente e sicura con i servizi AI. Questo approccio semplifica la connessione tra i servizi e garantisce coerenza nella gestione delle API.
Commenti
Per inserire un commento, devi avere un account.
Fai il login e torna a questa pagina, oppure registrati alla nostra community.
Approfondimenti
Anonimizzare i dati sensibili nei log di Azure Front Door
Pubblicare un MCP Server in GitHub MCP Registry
Esporre un server MCP con Azure API Management
Gestire pubblicazione Kubernetes tramite .NET Aspire
Integrazione di Copilot in .NET Aspire
Ridurre il reflow cambiando il CSS
Proteggere l'endpoint dell'agente A2A delle Logic App
Controllare la velocità di spostamento su una pagina HTML
Ricevere notifiche sui test con Azure Load Testing
Configuratione e utilizzo .NET Aspire CLI
Integrare LLM alle nostre applicazioni in .NET con MCP
Definire il metodo di rilascio in .NET Aspire
I più letti di oggi
- Effettuare il multi-checkout in linea nelle pipeline di Azure DevOps
- Sfruttare una CDN con i bundle di ASP.NET
- Esaminare documenti XML con namespace utilizzando LINQ to XML
- Alleggerire le applicazioni WPF sfruttando gli oggetti Freezable
- Inserire le news di Punto Informatico nel proprio sito
- Effetto turnstile su tutte le pagine con il Windows Phone Toolkit
- Le DirectInk API nella Universal Windows Platform
- Gli oggetti CallOut di Expression Blend 4.0


