Moduł 3: Multimodalne AI z Azure Speech i Vision Services


🎯 Cele modułu

  • Budowa zaawansowanych systemów rozpoznawania mowy z Azure Speech Services
  • Implementacja analizy obrazów zintegrowanej z Azure AI Foundry
  • Tworzenie multimodalnych agentów AI obsługujących mowę, tekst i obrazy
  • Wdrażanie systemów produkcyjnych dla rozpoznawania mowy i vision

Sesja 7: Azure Speech Services z integracją AI Foundry (23.09.2025)

🚀 Od podstaw do systemów enterprise

Po opanowaniu NLP przechodzimy do multimodalnych systemów AI - rozwiązań łączących tekst, mowę i obraz w jednej platformie Azure AI Foundry.

🎙️ Architektura Azure Speech Services

Nowoczesny pipeline przetwarzania mowy

ECOSYSTEM AZURE AI FOUNDRY + SPEECH SERVICES:

WEJŚCIE AUDIO → AZURE SPEECH → AI FOUNDRY AGENT → INTELIGENTNA ODPOWIEDŹ

ZAAWANSOWANE MOŻLIWOŚCI:
├─ Real-time STT → Agenci konwersacyjni
├─ Batch processing → Analiza dużych korpusów
├─ Speaker diarization → Multi-speaker meetings
├─ Custom models → Domain-specific vocabulary
├─ Sentiment analysis → Emotional intelligence
└─ Neural TTS → Naturalna synteza głosu

Konfiguracja Speech Services w Azure AI Foundry

Krok 1: Dodanie połączenia Speech Services

  1. Azure AI FoundryModels + Endpoints+ Add connection
  2. Azure AI servicesSpeech Service
  3. Endpoint: https://<region>.api.cognitive.microsoft.com/
  4. API Key z Speech Service resource

Krok 2: Konfiguracja agenta multimodalnego

MULTIMODAL AGENT CONFIGURATION:

Nazwa: "VoiceAssistant"
Model: GPT-4o (obsługuje audio)
Narzędzia:
✓ Azure Speech STT
✓ Azure Speech TTS
✓ Code Interpreter
✓ Function Calling

System Prompt:
"Jesteś inteligentnym asystentem multimodalnym. Obsługujesz:
- Transkrypcję mowy na tekst (real-time)
- Syntezę mowy z tekstu (emotional voices)
- Analizę sentymentu w audio
- Identyfikację mówców w konwersacjach
- Integrację z systemami edukacyjnymi

Zawsze odpowiadaj w kontekście edukacyjnym."

🗣️ Integracja Speech Services z Azure AI Foundry

Nowoczesny pipeline multimodalny

AZURE AI FOUNDRY SPEECH PIPELINE:

AUDIO INPUT → AZURE SPEECH → AI FOUNDRY AGENT → MULTIMODAL RESPONSE
                     ↓              ↓                    ↓
            [STT/TTS/Speaker ID] [Context + Memory] [Text/Audio/Actions]

ZAAWANSOWANE FUNKCJE:
├─ Conversations → Wieloturowe dialogi z pamięcią
├─ Real-time processing → Natychmiastowe odpowiedzi
├─ Emotional intelligence → Rozpoznawanie i wyrażanie emocji
├─ Multi-speaker → Konwersacje grupowe z identyfikacją
├─ Custom vocabulary → Słownictwo domenowe i techniczne
└─ Production scale → Enterprise deployment

Projekt warsztatowy: Edukacyjny asystent multimodalny

SPECYFIKACJA: INTELLIGENT TEACHING ASSISTANT

CASE STUDY: AI Teaching Assistant dla szkoleń technicznych

MULTIMODALNE MOŻLIWOŚCI w Azure AI Foundry:
├─ AUDIO PROCESSING:
│  ├─ Real-time Q&A podczas prezentacji
│  ├─ Transkrypcja pytań uczestników
│  ├─ Feedback na żywo o jakości prezentacji
│  └─ Analiza sentymentu grupowego
│
├─ VISION PROCESSING:
│  ├─ Analiza slajdów i materiałów wizualnych
│  ├─ OCR dla dokumentów i whiteboard
│  ├─ Rozpoznawanie gestów i języka ciała
│  └─ Ocena zaangażowania uczestników
│
└─ INTELLIGENCE LAYER:
   ├─ Kontekstowe odpowiedzi na pytania
   ├─ Automatyczne generowanie notatek
   ├─ Rekomendacje dalszej nauki
   └─ Raportowanie postępów uczenia

TECHNOLOGIE AZURE:
- Azure AI Foundry (główna platforma)
- Azure Speech Services (STT/TTS/Speaker Recognition)
- Azure Computer Vision (analiza obrazów)
- Azure AI Language (NLP i analiza treści)

Implementacja w Azure AI Foundry

Krok 1: Agent Configuration

W Agent Playground:

Agent Name: "TeachingAssistant"
Instructions: "Multimodalny asystent edukacyjny obsługujący audio, tekst i obrazy..."
Model: GPT-4o (multimodal)
Tools:
✓ File Search (materiały kursu)
✓ Code Interpreter (analiza danych uczestników)
✓ Function Calling (Speech/Vision services)
✓ Web Search (aktualne informacje)

Krok 2: Function Definitions dla Speech/Vision

{
  "name": "process_audio_question",
  "description": "Przetwarza pytanie audio od uczestnika i generuje odpowiedź",
  "parameters": {
    "type": "object",
    "properties": {
      "audio_file": {"type": "string", "description": "Ścieżka do pliku audio"},
      "context": {"type": "string", "description": "Kontekst lekcji"},
      "speaker_id": {"type": "string", "description": "ID uczestnika"}
    }
  }
}

Sesja 8: Azure Computer Vision zintegrowane z AI Foundry (25.09.2025)

👁️ Multimodalne agenty: tekst + obraz w Azure AI Foundry

GPT-4 Vision w Azure AI Foundry

Po Speech Services przechodzimy do vision capabilities - Azure AI Foundry z GPT-4 Vision umożliwia tworzenie agentów rozumiejących zarówno tekst jak i obrazy.

AZURE AI FOUNDRY VISION ECOSYSTEM:

IMAGE/DOCUMENT INPUT → GPT-4 VISION → AI FOUNDRY AGENT → INTELLIGENT ANALYSIS
                          ↓               ↓                     ↓
                   [OCR + Object    [Context +           [Structured
                    Detection]       Memory]              Output]

NATYWNE MOŻLIWOŚCI GPT-4 VISION:
├─ Document analysis → PDF, formularie, tabele
├─ Image understanding → Obiekty, sceny, emocje
├─ Chart/diagram reading → Wykresy, infografiki
├─ Handwriting recognition → Notatki odręczne
├─ Multi-image comparison → Analiza porównawcza
└─ Educational content analysis → Materiały dydaktyczne

Konfiguracja Vision Agent w AI Foundry

Agent Specification:

Agent Name: "VisionEducationAnalyzer"
Model: GPT-4o (natywne wsparcie vision)
Capabilities:
✓ Analiza materiałów wizualnych (slajdy, infografiki)
✓ OCR i ekstrakcja tekstu z obrazów
✓ Rozpoznawanie diagramów i wykresów
✓ Analiza napisów odręcznych uczestników
✓ Ocena jakości materiałów wizualnych

System Prompt:
"Jesteś ekspertem analizy materiałów edukacyjnych wizualnych.
Analizujesz obrazy pod kątem:
- Czytelności i dostępności
- Poprawności merytorycznej
- Zgodności z najlepszymi praktykami UX/UI
- Dostosowania do grupy docelowej

Zawsze podawaj konkretne sugestie usprawnienia."

🖼️ Praktyczne zastosowania Vision w edukacji

Projekt warsztatowy: Automatyczny ewaluator materiałów wizualnych

CASE STUDY: Smart Content Evaluator

WORKFLOW ANALIZY MATERIAŁÓW WIZUALNYCH:

1. PRZESŁANIE MATERIAŁÓW w AI Foundry:
   ├─ Slajdy prezentacji (PDF/PowerPoint)
   ├─ Infografiki edukacyjne (PNG/JPG)
   ├─ Diagramy i schematy
   ├─ Zdjęcia tablic i notatek
   └─ Materiały graficzne interaktywne

2. AUTOMATYCZNA ANALIZA przez Vision Agent:
   ├─ OCR → Ekstrakcja tekstu z obrazów
   ├─ Layout analysis → Ocena kompozycji
   ├─ Color accessibility → Sprawdzenie dostępności
   ├─ Content relevance → Zgodność z tematem
   └─ Pedagogical effectiveness → Wartość edukacyjna

3. INTELIGENTNE REKOMENDACJE:
   ├─ Sugestie poprawek layoutu
   ├─ Rekomendacje alternatywnych grafik
   ├─ Wskazówki dostępności (color blind, dysleksja)
   └─ Optymalizacja dla różnych grup wiekowych

4. GENEROWANIE RAPORTÓW:
   ├─ Szczegółowa analiza każdego materiału
   ├─ Ranking jakości i przydatności
   ├─ Action items do implementacji
   └─ Benchmarking z najlepszymi praktykami

Przykład praktyczny w Playground

Test materiałów: Przesłanie slajdu prezentacji

Prompt dla Vision Agent:

Przeanalizuj przesłany slajd prezentacji pod kątem:

1. CZYTELNOŚĆ:
   - Rozmiar i czytelność czcionek
   - Kontrast tekstu i tła
   - Ilość tekstu na slajdzie

2. DESIGN:
   - Kompozycja i układ elementów
   - Użycie kolorów i grafik
   - Spójność z brandingiem

3. MERYTORYKA:
   - Poprawność informacji
   - Logiczny przepływ treści
   - Dostosowanie do grupy docelowej

4. DOSTĘPNOŚĆ:
   - Zgodność z wytycznymi WCAG
   - Czytelność dla osób z dysleksją
   - Alternatywne opisy dla grafik

Podaj konkretne rekomendacje usprawnienia.

🖼️ Praktyczne zastosowania w projektach

🔬 Zaawansowana analiza materiałów edukacyjnych

Projekt warsztatowy: Smart Education Document Processor

SPECYFIKACJA: Inteligentny procesor dokumentów edukacyjnych w Azure AI Foundry

ENTERPRISE DOCUMENT PROCESSING dla instytucji edukacyjnych:

MULTIMODALNE WEJŚCIE → AI FOUNDRY AGENTS → STRUCTURED EDUCATIONAL OUTPUT

INPUT SOURCES:
├─ Podręczniki (PDF multi-page)
├─ Prezentacje (PowerPoint/PDF)
├─ Arkusze zadań (scan/digital)
├─ Notatki odręczne uczestników
├─ Infografiki i diagramy
└─ Materiały multimedialne

PROCESSING AGENTS w AI Foundry:
├─ DocumentAnalyzer → OCR + struktura dokumentu
├─ ContentEvaluator → Ocena merytoryczna treści
├─ AccessibilityChecker → Analiza dostępności
├─ CurriculumAligner → Zgodność ze standardami
└─ QualityReporter → Raporty jakości

INTELLIGENT OUTPUT:
├─ Strukturalne metadane dokumentów
├─ Extracted knowledge graphs
├─ Quality assessment reports
├─ Accessibility recommendations
└─ Curriculum alignment scores

Hands-on Workshop: Document Intelligence

Ćwiczenie praktyczne: Analiza rzeczywistych materiałów edukacyjnych

Krok 1: Upload materiałów do AI Foundry

  • Slajdy z poprzedniej sesji
  • Przykładowy podręcznik (PDF)
  • Infografika edukacyjna

Krok 2: Konfiguracja Vision Agent

SYSTEM PROMPT FOR EDUCATIONAL DOCUMENT ANALYZER:

Analizujesz materiały edukacyjne pod kątem:

TECHNICAL ASSESSMENT:
1. OCR quality → jakość ekstrakcji tekstu
2. Layout structure → organizacja treści
3. Visual hierarchy → hierarchia informacji
4. Color usage → użycie kolorów
5. Typography → czytelność czcionek

PEDAGOGICAL ASSESSMENT:
1. Learning objectives alignment → zgodność z celami
2. Cognitive load → obciążenie poznawcze
3. Engagement potential → potencjał zaangażowania
4. Age appropriateness → dostosowanie do wieku
5. Accessibility compliance → dostępność

OUTPUT FORMAT:
{
  "technical_score": 0-100,
  "pedagogical_score": 0-100,
  "accessibility_score": 0-100,
  "recommendations": ["konkretne sugestie"],
  "priority_fixes": ["najpilniejsze poprawki"]
}

Sesja 9: Production-ready multimodalne systemy AI (30.09.2025)

🏭 Enterprise deployment multimodalnych agentów

Finalizacja: Production-grade Multimodal AI System

Po poprzednich sesjach budujemy kompletny system produkcyjny łączący wszystkie multimodalne możliwości Azure AI Foundry.

ARCHITECTURE: ENTERPRISE MULTIMODAL AI PLATFORM

┌─────────────────────────────────────────────────────────────────┐
│                    AZURE AI FOUNDRY CORE                       │
├─────────────────────────────────────────────────────────────────┤
│                    AGENT ORCHESTRATION                         │
│  ┌─────────────────┬─────────────────┬─────────────────────────┐ │
│  │  Speech Agent   │  Vision Agent   │  Text Analysis Agent    │ │
│  │  - Real-time    │  - Document     │  - NER & Sentiment     │ │
│  │    STT/TTS      │    Intelligence │  - Key phrases         │ │
│  │  - Speaker ID   │  - OCR          │  - Language detection  │ │
│  │  - Transcription│  - Layout       │  - PII detection       │ │
│  └─────────────────┴─────────────────┴─────────────────────────┘ │
├─────────────────────────────────────────────────────────────────┤
│                    INTEGRATION LAYER                           │
│  ├─ Azure Speech Services    ├─ Azure Computer Vision          │
│  ├─ Azure AI Language       ├─ Azure Document Intelligence     │
│  ├─ Azure Translator        ├─ Power BI Integration           │
│  └─ Custom Business Logic   └─ Enterprise Systems             │
└─────────────────────────────────────────────────────────────────┘

🎯 Przypadek użycia: Intelligent Meeting Assistant

Kompletny system analizy spotkań edukacyjnych

SPECYFIKACJA SYSTEMU:

MULTIMODAL MEETING INTELLIGENCE w Azure AI Foundry:

REAL-TIME PROCESSING:
├─ Audio Stream → Azure Speech → Meeting Transcription
├─ Screen Share → Vision Analysis → Slide Content Extraction
├─ Chat Messages → Text Analytics → Sentiment & Key Topics
└─ Participant Video → Face/Gesture → Engagement Analysis

INTELLIGENT ANALYSIS:
├─ Speaker Diarization → Kto mówił kiedy
├─ Topic Extraction → Główne tematy dyskusji
├─ Action Items → Automatyczne zadania do wykonania
├─ Decision Points → Podjęte decyzje
├─ Follow-up → Rekomendowane działania
└─ Sentiment Timeline → Jak zmieniał się nastrój

POST-MEETING AUTOMATION:
├─ Smart Summary → Inteligentne podsumowanie
├─ Participant Reports → Indywidualne raporty
├─ Calendar Integration → Automatyczne follow-up meetings
├─ Document Generation → Minutes, action plans
└─ Analytics Dashboard → Metryki spotkania

Implementacja w Azure AI Foundry

Master Agent: "MeetingIntelligence"

System Prompt:

INTELIGENTNY SYSTEM ANALIZY SPOTKAŃ EDUKACYJNYCH

JESTEŚ: Ekspertem analizy spotkań edukacyjnych z możliwościami multimodalnymi

MULTIMODALNE MOŻLIWOŚCI:
1. AUDIO ANALYSIS:
   - Transkrypcja wypowiedzi w czasie rzeczywistym
   - Identyfikacja mówców i czasu wypowiedzi
   - Analiza tonu i emocji w głosie
   - Wykrywanie przerw i hezytacji

2. VISION ANALYSIS:
   - Analiza slajdów i materiałów wizualnych prezentowanych
   - OCR notatek na tablicy lub flipcharcie
   - Rozpoznawanie gestów i języka ciała
   - Ocena zaangażowania uczestników

3. TEXT ANALYSIS:
   - Analiza czatu i wiadomości tekstowych
   - Wykrywanie kluczowych terminów i koncepcji
   - Identyfikacja pytań i wątpliwości
   - Mapowanie przepływu dyskusji

DELIVERABLES:
- Real-time meeting insights
- Post-meeting comprehensive report
- Action items with assignment
- Follow-up recommendations
- Engagement analytics

INTEGRATION:
Współpracujesz z Azure Speech Services, Computer Vision i Language Services.
Wszystkie analizy łączysz w spójny, praktyczny raport.

Demonstration Workflow

Live Demo: 15-minutowe szkolenie z pełną analizą

  1. Pre-meeting Setup (2 min):

    • Uruchomienie Meeting Intelligence Agent
    • Konfiguracja audio/video capture
    • Upload materiałów prezentacji
  2. Real-time Processing (10 min):

    • Transkrypcja wypowiedzi na żywo
    • Analiza prezentowanych slajdów
    • Monitorowanie zaangażowania
  3. Post-meeting Analysis (3 min):

    • Automatyczne generowanie podsumowania
    • Identyfikacja action items
    • Wysłanie raportów do uczestników

Deployment i scaling multimodalnego systemu

PRODUCTION DEPLOYMENT w Azure AI Foundry:

ENTERPRISE SCALING CONSIDERATIONS:

PERFORMANCE OPTIMIZATION:
├─ Agent Threading → Równoległe przetwarzanie modalności
├─ Caching Strategy → Cache dla powtarzających się zapytań
├─ Load Balancing → Dystrybucja obciążenia między agentami
├─ Async Processing → Nieblokujące operacje I/O
└─ Resource Management → Optymalne wykorzystanie TPM quota

MONITORING & OBSERVABILITY:
├─ Agent Performance Metrics → Czas odpowiedzi, throughput
├─ Quality Metrics → Accuracy, user satisfaction
├─ Cost Tracking → Token usage, API calls
├─ Error Monitoring → Failed requests, timeouts
└─ User Experience → Response times, engagement

SECURITY & COMPLIANCE:
├─ Data Privacy → PII detection i protection
├─ Access Control → RBAC for different user roles
├─ Audit Logging → Complete activity trails
├─ Data Retention → Compliance with regulations
└─ Encryption → End-to-end security

🏠 Zadania między sesjami

Zadanie 1: Personal Voice Assistant (Tydzień 1)

  • Stwórz osobistego asystenta głosowego w Azure AI Foundry
  • Zintegruj z Azure Speech Services
  • Dodaj możliwość analizy dokumentów przez upload
  • Przetestuj z różnymi typami content (audio, image, text)

Zadanie 2: Multimodal Content Analyzer (Tydzień 2)

  • Zaprojektuj agenta analizującego materiały edukacyjne
  • Zaimplementuj pipeline: audio → transkrypcja → analiza → raport
  • Dodaj vision capabilities dla slajdów i dokumentów
  • Stwórz system scoring jakości materiałów

Zadanie 3: Enterprise Integration (Tydzień 3)

  • Zintegruj system z Microsoft Teams lub Zoom
  • Zaimplementuj automatyczne post-meeting reports
  • Dodaj dashboard analytics w Power BI
  • Przygotuj demo production-ready systemu

✅ Kryteria oceny modułu

Kompetencje techniczne

  • Konfiguracja Azure Speech Services ✓
  • Integracja multimodalnych agentów w AI Foundry ✓
  • Vision processing z GPT-4o ✓
  • Production deployment considerations ✓

Kompetencje praktyczne

  • System transkrypcji spotkań w czasie rzeczywistym ✓
  • Automatyczna analiza materiałów wizualnych ✓
  • Intelligent meeting assistant ✓
  • Enterprise scaling i monitoring ✓

Portfolio projektu

  • Działający multimodalny agent w Azure AI Foundry
  • System analizy spotkań/szkoleń
  • Dokumentacja deployment i best practices
  • Demo enterprise integration

📚 Dodatkowe zasoby

Dokumentacja techniczna Azure AI Foundry

Praktyczne narzędzia enterprise

  • Azure AI Foundry Portal: https://ai.azure.com
  • VS Code Extension: Azure AI Foundry
  • Speech Studio dla testowania modeli
  • Azure Monitor dla production monitoring

Szkolenia Microsoft Learn


💡 Wskazówka

Każda sesja to 2 godziny intensywnej nauki z praktycznymi ćwiczeniami. Materiały można przeglądać w dowolnym tempie.

📈 Postęp

Śledź swój postęp w nauce AI i przygotowaniu do certyfikacji Azure AI-102. Każdy moduł buduje na poprzednim.