Moduł 3: Multimodalne AI z Azure Speech i Vision Services
🎯 Cele modułu
- Budowa zaawansowanych systemów rozpoznawania mowy z Azure Speech Services
- Implementacja analizy obrazów zintegrowanej z Azure AI Foundry
- Tworzenie multimodalnych agentów AI obsługujących mowę, tekst i obrazy
- Wdrażanie systemów produkcyjnych dla rozpoznawania mowy i vision
Sesja 7: Azure Speech Services z integracją AI Foundry (23.09.2025)
🚀 Od podstaw do systemów enterprise
Po opanowaniu NLP przechodzimy do multimodalnych systemów AI - rozwiązań łączących tekst, mowę i obraz w jednej platformie Azure AI Foundry.
🎙️ Architektura Azure Speech Services
Nowoczesny pipeline przetwarzania mowy
ECOSYSTEM AZURE AI FOUNDRY + SPEECH SERVICES:
WEJŚCIE AUDIO → AZURE SPEECH → AI FOUNDRY AGENT → INTELIGENTNA ODPOWIEDŹ
ZAAWANSOWANE MOŻLIWOŚCI:
├─ Real-time STT → Agenci konwersacyjni
├─ Batch processing → Analiza dużych korpusów
├─ Speaker diarization → Multi-speaker meetings
├─ Custom models → Domain-specific vocabulary
├─ Sentiment analysis → Emotional intelligence
└─ Neural TTS → Naturalna synteza głosu
Konfiguracja Speech Services w Azure AI Foundry
Krok 1: Dodanie połączenia Speech Services
- Azure AI Foundry → Models + Endpoints → + Add connection
- Azure AI services → Speech Service
- Endpoint:
https://<region>.api.cognitive.microsoft.com/ - API Key z Speech Service resource
Krok 2: Konfiguracja agenta multimodalnego
MULTIMODAL AGENT CONFIGURATION:
Nazwa: "VoiceAssistant"
Model: GPT-4o (obsługuje audio)
Narzędzia:
✓ Azure Speech STT
✓ Azure Speech TTS
✓ Code Interpreter
✓ Function Calling
System Prompt:
"Jesteś inteligentnym asystentem multimodalnym. Obsługujesz:
- Transkrypcję mowy na tekst (real-time)
- Syntezę mowy z tekstu (emotional voices)
- Analizę sentymentu w audio
- Identyfikację mówców w konwersacjach
- Integrację z systemami edukacyjnymi
Zawsze odpowiadaj w kontekście edukacyjnym."
🗣️ Integracja Speech Services z Azure AI Foundry
Nowoczesny pipeline multimodalny
AZURE AI FOUNDRY SPEECH PIPELINE:
AUDIO INPUT → AZURE SPEECH → AI FOUNDRY AGENT → MULTIMODAL RESPONSE
↓ ↓ ↓
[STT/TTS/Speaker ID] [Context + Memory] [Text/Audio/Actions]
ZAAWANSOWANE FUNKCJE:
├─ Conversations → Wieloturowe dialogi z pamięcią
├─ Real-time processing → Natychmiastowe odpowiedzi
├─ Emotional intelligence → Rozpoznawanie i wyrażanie emocji
├─ Multi-speaker → Konwersacje grupowe z identyfikacją
├─ Custom vocabulary → Słownictwo domenowe i techniczne
└─ Production scale → Enterprise deployment
Projekt warsztatowy: Edukacyjny asystent multimodalny
SPECYFIKACJA: INTELLIGENT TEACHING ASSISTANT
CASE STUDY: AI Teaching Assistant dla szkoleń technicznych
MULTIMODALNE MOŻLIWOŚCI w Azure AI Foundry:
├─ AUDIO PROCESSING:
│ ├─ Real-time Q&A podczas prezentacji
│ ├─ Transkrypcja pytań uczestników
│ ├─ Feedback na żywo o jakości prezentacji
│ └─ Analiza sentymentu grupowego
│
├─ VISION PROCESSING:
│ ├─ Analiza slajdów i materiałów wizualnych
│ ├─ OCR dla dokumentów i whiteboard
│ ├─ Rozpoznawanie gestów i języka ciała
│ └─ Ocena zaangażowania uczestników
│
└─ INTELLIGENCE LAYER:
├─ Kontekstowe odpowiedzi na pytania
├─ Automatyczne generowanie notatek
├─ Rekomendacje dalszej nauki
└─ Raportowanie postępów uczenia
TECHNOLOGIE AZURE:
- Azure AI Foundry (główna platforma)
- Azure Speech Services (STT/TTS/Speaker Recognition)
- Azure Computer Vision (analiza obrazów)
- Azure AI Language (NLP i analiza treści)
Implementacja w Azure AI Foundry
Krok 1: Agent Configuration
W Agent Playground:
Agent Name: "TeachingAssistant"
Instructions: "Multimodalny asystent edukacyjny obsługujący audio, tekst i obrazy..."
Model: GPT-4o (multimodal)
Tools:
✓ File Search (materiały kursu)
✓ Code Interpreter (analiza danych uczestników)
✓ Function Calling (Speech/Vision services)
✓ Web Search (aktualne informacje)
Krok 2: Function Definitions dla Speech/Vision
{
"name": "process_audio_question",
"description": "Przetwarza pytanie audio od uczestnika i generuje odpowiedź",
"parameters": {
"type": "object",
"properties": {
"audio_file": {"type": "string", "description": "Ścieżka do pliku audio"},
"context": {"type": "string", "description": "Kontekst lekcji"},
"speaker_id": {"type": "string", "description": "ID uczestnika"}
}
}
}
Sesja 8: Azure Computer Vision zintegrowane z AI Foundry (25.09.2025)
👁️ Multimodalne agenty: tekst + obraz w Azure AI Foundry
GPT-4 Vision w Azure AI Foundry
Po Speech Services przechodzimy do vision capabilities - Azure AI Foundry z GPT-4 Vision umożliwia tworzenie agentów rozumiejących zarówno tekst jak i obrazy.
AZURE AI FOUNDRY VISION ECOSYSTEM:
IMAGE/DOCUMENT INPUT → GPT-4 VISION → AI FOUNDRY AGENT → INTELLIGENT ANALYSIS
↓ ↓ ↓
[OCR + Object [Context + [Structured
Detection] Memory] Output]
NATYWNE MOŻLIWOŚCI GPT-4 VISION:
├─ Document analysis → PDF, formularie, tabele
├─ Image understanding → Obiekty, sceny, emocje
├─ Chart/diagram reading → Wykresy, infografiki
├─ Handwriting recognition → Notatki odręczne
├─ Multi-image comparison → Analiza porównawcza
└─ Educational content analysis → Materiały dydaktyczne
Konfiguracja Vision Agent w AI Foundry
Agent Specification:
Agent Name: "VisionEducationAnalyzer"
Model: GPT-4o (natywne wsparcie vision)
Capabilities:
✓ Analiza materiałów wizualnych (slajdy, infografiki)
✓ OCR i ekstrakcja tekstu z obrazów
✓ Rozpoznawanie diagramów i wykresów
✓ Analiza napisów odręcznych uczestników
✓ Ocena jakości materiałów wizualnych
System Prompt:
"Jesteś ekspertem analizy materiałów edukacyjnych wizualnych.
Analizujesz obrazy pod kątem:
- Czytelności i dostępności
- Poprawności merytorycznej
- Zgodności z najlepszymi praktykami UX/UI
- Dostosowania do grupy docelowej
Zawsze podawaj konkretne sugestie usprawnienia."
🖼️ Praktyczne zastosowania Vision w edukacji
Projekt warsztatowy: Automatyczny ewaluator materiałów wizualnych
CASE STUDY: Smart Content Evaluator
WORKFLOW ANALIZY MATERIAŁÓW WIZUALNYCH:
1. PRZESŁANIE MATERIAŁÓW w AI Foundry:
├─ Slajdy prezentacji (PDF/PowerPoint)
├─ Infografiki edukacyjne (PNG/JPG)
├─ Diagramy i schematy
├─ Zdjęcia tablic i notatek
└─ Materiały graficzne interaktywne
2. AUTOMATYCZNA ANALIZA przez Vision Agent:
├─ OCR → Ekstrakcja tekstu z obrazów
├─ Layout analysis → Ocena kompozycji
├─ Color accessibility → Sprawdzenie dostępności
├─ Content relevance → Zgodność z tematem
└─ Pedagogical effectiveness → Wartość edukacyjna
3. INTELIGENTNE REKOMENDACJE:
├─ Sugestie poprawek layoutu
├─ Rekomendacje alternatywnych grafik
├─ Wskazówki dostępności (color blind, dysleksja)
└─ Optymalizacja dla różnych grup wiekowych
4. GENEROWANIE RAPORTÓW:
├─ Szczegółowa analiza każdego materiału
├─ Ranking jakości i przydatności
├─ Action items do implementacji
└─ Benchmarking z najlepszymi praktykami
Przykład praktyczny w Playground
Test materiałów: Przesłanie slajdu prezentacji
Prompt dla Vision Agent:
Przeanalizuj przesłany slajd prezentacji pod kątem:
1. CZYTELNOŚĆ:
- Rozmiar i czytelność czcionek
- Kontrast tekstu i tła
- Ilość tekstu na slajdzie
2. DESIGN:
- Kompozycja i układ elementów
- Użycie kolorów i grafik
- Spójność z brandingiem
3. MERYTORYKA:
- Poprawność informacji
- Logiczny przepływ treści
- Dostosowanie do grupy docelowej
4. DOSTĘPNOŚĆ:
- Zgodność z wytycznymi WCAG
- Czytelność dla osób z dysleksją
- Alternatywne opisy dla grafik
Podaj konkretne rekomendacje usprawnienia.
🖼️ Praktyczne zastosowania w projektach
🔬 Zaawansowana analiza materiałów edukacyjnych
Projekt warsztatowy: Smart Education Document Processor
SPECYFIKACJA: Inteligentny procesor dokumentów edukacyjnych w Azure AI Foundry
ENTERPRISE DOCUMENT PROCESSING dla instytucji edukacyjnych:
MULTIMODALNE WEJŚCIE → AI FOUNDRY AGENTS → STRUCTURED EDUCATIONAL OUTPUT
INPUT SOURCES:
├─ Podręczniki (PDF multi-page)
├─ Prezentacje (PowerPoint/PDF)
├─ Arkusze zadań (scan/digital)
├─ Notatki odręczne uczestników
├─ Infografiki i diagramy
└─ Materiały multimedialne
PROCESSING AGENTS w AI Foundry:
├─ DocumentAnalyzer → OCR + struktura dokumentu
├─ ContentEvaluator → Ocena merytoryczna treści
├─ AccessibilityChecker → Analiza dostępności
├─ CurriculumAligner → Zgodność ze standardami
└─ QualityReporter → Raporty jakości
INTELLIGENT OUTPUT:
├─ Strukturalne metadane dokumentów
├─ Extracted knowledge graphs
├─ Quality assessment reports
├─ Accessibility recommendations
└─ Curriculum alignment scores
Hands-on Workshop: Document Intelligence
Ćwiczenie praktyczne: Analiza rzeczywistych materiałów edukacyjnych
Krok 1: Upload materiałów do AI Foundry
- Slajdy z poprzedniej sesji
- Przykładowy podręcznik (PDF)
- Infografika edukacyjna
Krok 2: Konfiguracja Vision Agent
SYSTEM PROMPT FOR EDUCATIONAL DOCUMENT ANALYZER:
Analizujesz materiały edukacyjne pod kątem:
TECHNICAL ASSESSMENT:
1. OCR quality → jakość ekstrakcji tekstu
2. Layout structure → organizacja treści
3. Visual hierarchy → hierarchia informacji
4. Color usage → użycie kolorów
5. Typography → czytelność czcionek
PEDAGOGICAL ASSESSMENT:
1. Learning objectives alignment → zgodność z celami
2. Cognitive load → obciążenie poznawcze
3. Engagement potential → potencjał zaangażowania
4. Age appropriateness → dostosowanie do wieku
5. Accessibility compliance → dostępność
OUTPUT FORMAT:
{
"technical_score": 0-100,
"pedagogical_score": 0-100,
"accessibility_score": 0-100,
"recommendations": ["konkretne sugestie"],
"priority_fixes": ["najpilniejsze poprawki"]
}
Sesja 9: Production-ready multimodalne systemy AI (30.09.2025)
🏭 Enterprise deployment multimodalnych agentów
Finalizacja: Production-grade Multimodal AI System
Po poprzednich sesjach budujemy kompletny system produkcyjny łączący wszystkie multimodalne możliwości Azure AI Foundry.
ARCHITECTURE: ENTERPRISE MULTIMODAL AI PLATFORM
┌─────────────────────────────────────────────────────────────────┐
│ AZURE AI FOUNDRY CORE │
├─────────────────────────────────────────────────────────────────┤
│ AGENT ORCHESTRATION │
│ ┌─────────────────┬─────────────────┬─────────────────────────┐ │
│ │ Speech Agent │ Vision Agent │ Text Analysis Agent │ │
│ │ - Real-time │ - Document │ - NER & Sentiment │ │
│ │ STT/TTS │ Intelligence │ - Key phrases │ │
│ │ - Speaker ID │ - OCR │ - Language detection │ │
│ │ - Transcription│ - Layout │ - PII detection │ │
│ └─────────────────┴─────────────────┴─────────────────────────┘ │
├─────────────────────────────────────────────────────────────────┤
│ INTEGRATION LAYER │
│ ├─ Azure Speech Services ├─ Azure Computer Vision │
│ ├─ Azure AI Language ├─ Azure Document Intelligence │
│ ├─ Azure Translator ├─ Power BI Integration │
│ └─ Custom Business Logic └─ Enterprise Systems │
└─────────────────────────────────────────────────────────────────┘
🎯 Przypadek użycia: Intelligent Meeting Assistant
Kompletny system analizy spotkań edukacyjnych
SPECYFIKACJA SYSTEMU:
MULTIMODAL MEETING INTELLIGENCE w Azure AI Foundry:
REAL-TIME PROCESSING:
├─ Audio Stream → Azure Speech → Meeting Transcription
├─ Screen Share → Vision Analysis → Slide Content Extraction
├─ Chat Messages → Text Analytics → Sentiment & Key Topics
└─ Participant Video → Face/Gesture → Engagement Analysis
INTELLIGENT ANALYSIS:
├─ Speaker Diarization → Kto mówił kiedy
├─ Topic Extraction → Główne tematy dyskusji
├─ Action Items → Automatyczne zadania do wykonania
├─ Decision Points → Podjęte decyzje
├─ Follow-up → Rekomendowane działania
└─ Sentiment Timeline → Jak zmieniał się nastrój
POST-MEETING AUTOMATION:
├─ Smart Summary → Inteligentne podsumowanie
├─ Participant Reports → Indywidualne raporty
├─ Calendar Integration → Automatyczne follow-up meetings
├─ Document Generation → Minutes, action plans
└─ Analytics Dashboard → Metryki spotkania
Implementacja w Azure AI Foundry
Master Agent: "MeetingIntelligence"
System Prompt:
INTELIGENTNY SYSTEM ANALIZY SPOTKAŃ EDUKACYJNYCH
JESTEŚ: Ekspertem analizy spotkań edukacyjnych z możliwościami multimodalnymi
MULTIMODALNE MOŻLIWOŚCI:
1. AUDIO ANALYSIS:
- Transkrypcja wypowiedzi w czasie rzeczywistym
- Identyfikacja mówców i czasu wypowiedzi
- Analiza tonu i emocji w głosie
- Wykrywanie przerw i hezytacji
2. VISION ANALYSIS:
- Analiza slajdów i materiałów wizualnych prezentowanych
- OCR notatek na tablicy lub flipcharcie
- Rozpoznawanie gestów i języka ciała
- Ocena zaangażowania uczestników
3. TEXT ANALYSIS:
- Analiza czatu i wiadomości tekstowych
- Wykrywanie kluczowych terminów i koncepcji
- Identyfikacja pytań i wątpliwości
- Mapowanie przepływu dyskusji
DELIVERABLES:
- Real-time meeting insights
- Post-meeting comprehensive report
- Action items with assignment
- Follow-up recommendations
- Engagement analytics
INTEGRATION:
Współpracujesz z Azure Speech Services, Computer Vision i Language Services.
Wszystkie analizy łączysz w spójny, praktyczny raport.
Demonstration Workflow
Live Demo: 15-minutowe szkolenie z pełną analizą
-
Pre-meeting Setup (2 min):
- Uruchomienie Meeting Intelligence Agent
- Konfiguracja audio/video capture
- Upload materiałów prezentacji
-
Real-time Processing (10 min):
- Transkrypcja wypowiedzi na żywo
- Analiza prezentowanych slajdów
- Monitorowanie zaangażowania
-
Post-meeting Analysis (3 min):
- Automatyczne generowanie podsumowania
- Identyfikacja action items
- Wysłanie raportów do uczestników
Deployment i scaling multimodalnego systemu
PRODUCTION DEPLOYMENT w Azure AI Foundry:
ENTERPRISE SCALING CONSIDERATIONS:
PERFORMANCE OPTIMIZATION:
├─ Agent Threading → Równoległe przetwarzanie modalności
├─ Caching Strategy → Cache dla powtarzających się zapytań
├─ Load Balancing → Dystrybucja obciążenia między agentami
├─ Async Processing → Nieblokujące operacje I/O
└─ Resource Management → Optymalne wykorzystanie TPM quota
MONITORING & OBSERVABILITY:
├─ Agent Performance Metrics → Czas odpowiedzi, throughput
├─ Quality Metrics → Accuracy, user satisfaction
├─ Cost Tracking → Token usage, API calls
├─ Error Monitoring → Failed requests, timeouts
└─ User Experience → Response times, engagement
SECURITY & COMPLIANCE:
├─ Data Privacy → PII detection i protection
├─ Access Control → RBAC for different user roles
├─ Audit Logging → Complete activity trails
├─ Data Retention → Compliance with regulations
└─ Encryption → End-to-end security
🏠 Zadania między sesjami
Zadanie 1: Personal Voice Assistant (Tydzień 1)
- Stwórz osobistego asystenta głosowego w Azure AI Foundry
- Zintegruj z Azure Speech Services
- Dodaj możliwość analizy dokumentów przez upload
- Przetestuj z różnymi typami content (audio, image, text)
Zadanie 2: Multimodal Content Analyzer (Tydzień 2)
- Zaprojektuj agenta analizującego materiały edukacyjne
- Zaimplementuj pipeline: audio → transkrypcja → analiza → raport
- Dodaj vision capabilities dla slajdów i dokumentów
- Stwórz system scoring jakości materiałów
Zadanie 3: Enterprise Integration (Tydzień 3)
- Zintegruj system z Microsoft Teams lub Zoom
- Zaimplementuj automatyczne post-meeting reports
- Dodaj dashboard analytics w Power BI
- Przygotuj demo production-ready systemu
✅ Kryteria oceny modułu
Kompetencje techniczne
- Konfiguracja Azure Speech Services ✓
- Integracja multimodalnych agentów w AI Foundry ✓
- Vision processing z GPT-4o ✓
- Production deployment considerations ✓
Kompetencje praktyczne
- System transkrypcji spotkań w czasie rzeczywistym ✓
- Automatyczna analiza materiałów wizualnych ✓
- Intelligent meeting assistant ✓
- Enterprise scaling i monitoring ✓
Portfolio projektu
- Działający multimodalny agent w Azure AI Foundry
- System analizy spotkań/szkoleń
- Dokumentacja deployment i best practices
- Demo enterprise integration
📚 Dodatkowe zasoby
Dokumentacja techniczna Azure AI Foundry
- Azure AI Foundry Documentation↗
- Azure Speech Services↗
- GPT-4 Vision capabilities↗
- Multimodal AI best practices
Praktyczne narzędzia enterprise
- Azure AI Foundry Portal: https://ai.azure.com↗
- VS Code Extension: Azure AI Foundry
- Speech Studio dla testowania modeli
- Azure Monitor dla production monitoring
Szkolenia Microsoft Learn
- Develop an AI agent with Azure AI Foundry↗
- Implement speech solutions↗
- Enterprise AI deployment patterns↗