CV — Michał Junczyk

Doświadczenie

Allegro, Warszawa12.2021 — teraz
Head of Data Annotation & QA Services
- Zbudowałem framework zapewnienia jakości, przez który przechodzą produkty AI przed wdrożeniem — definicje gotowości, kryteria akceptacji i standardy monitorowania.
- Rozbudowałem w organizacji kompetencje anotacji danych — wprowadziłem zewnętrznych partnerów-dostawców, przebudowałem narzędzia anotacyjne i zbudowałem zespół, który w ciągu czterech lat przeszkolił z Data-Centric AI ponad 700 osób z obszarów produktowych i technologicznych.
- Dostarczam zbiory danych, na których trenuje się i ocenia rozwiązania AI w tłumaczeniach, wyszukiwaniu, katalogu produktów i wielu innych obszarach — służące zarówno klientom końcowym, jak i zespołom wewnątrz organizacji.
- Zrealizowałem ponad 200 projektów anotacyjnych dla zespołów AI w całej organizacji.
Samsung, Warszawa04.2017 — 11.2021
Head of Language Data Operations
- Kierowałem operacją end-to-end zarządzania zbiorami danych ML dla systemów NLP — zespół anotacyjny w Polsce oraz zespoły operacyjne w Niemczech, Francji, Hiszpanii i we Włoszech (50+ inżynierów i ekspertów dziedzinowych w 5 krajach).
- Zbudowałem i utrzymywałem infrastrukturę danych oraz narzędzia anotacyjne, na których międzynarodowe zespoły R&D opierały dostarczanie zbiorów danych NLP.
Samsung, Warszawa03.2011 — 03.2017
Inżynier danych i lider techniczny
- Kierowałem zbieraniem i transkrypcją danych mowy dla systemów rozpoznawania mowy w 8 językach i urządzeniach głosowych Samsunga, zasilając asystentów głosowych wdrażanych na rynkach europejskich.

Wykształcenie

Uniwersytet im. Adama Mickiewicza w Poznaniu09.2019 — 06.2024
Doktorat z informatyki
Zastosowanie metod zarządzania zbiorami danych mowy do ewaluacji systemów rozpoznawania mowy dla języka polskiego.
Politechnika Poznańska10.2005 — 06.2010
Mgr inż. telekomunikacji
Specjalność: systemy multimedialne i przetwarzanie sygnałów.

Publikacje

Profile: Google Scholar · ResearchGate · dblp

Junczyk, M., Christop, I., & Pęzik, P. (2024). Task 3: Polish Automatic Speech Recognition Challenge. PolEval 2024 Workshop. [pdf]
Junczyk, M. (2024). BIGOS V2 — Benchmark for Polish ASR: Curated Datasets and Tools for Reproducible Evaluation. NeurIPS 2024 (Datasets & Benchmarks Track). [poster]
Junczyk, M. (2024). A survey of Polish ASR speech datasets. Poznań Studies in Contemporary Linguistics 60(1), 27–52. [doi]
Junczyk, M. (2023). BIGOS — Benchmark Intended Grouping of Open Speech Corpora for Polish ASR. FedCSIS 2023, Warsaw, 585–590. [pdf]
Jeziorski, A., Sawicki, F., Solop, O., Junczyk, M., Sikora, M., & Zietkiewicz, T. (2020). Industrial ASR troubleshooting tool. LREC 2020 Industry Track, 10–14, ELRA. [pdf]

Wystąpienia

2026GenAI in Localization 2026
Evaluating Agentic AI: Why It's Hard, and Why Language Teams Already Have the Answer [summary]
2026GenAI in Localization 2026
The Evaluation Best Practices Workshop [summary] [materials]
Prowadzony z zespołem Localization & Data w Allegro.
2025Product Cafe #15
AI Evals — jak naprawdę oceniać modele, gdy vibe-check już nie wystarcza
2025GenAI in Localization 2025
From Translation to AI Evaluations (panel: evolving role of language experts in leading e-commerce) [agenda] [summary]
2024NeurIPS 2024 (D&B Track)
BIGOS V2 Benchmark for Polish ASR
2024PolEval 2024
Polish ASR Challenge 2024 — results & methodology
2024YouTube
Ocena jakości tłumaczenia maszynowego
2024Panel discussion (YouTube)
Rapid Tech and Business Shifts in the PL Translation Industry: Opportunities and Challenges

Dydaktyka

Ewaluacja AI dla każdego — darmowy kurs online dla początkujących oraz ekspertów dziedzinowych
Kurs otwarty · 2026 — teraz · kurs
Warsztaty z ewaluacji systemów rozpoznawania mowy
UAM · 2024 — teraz · sylabus (stacjonarne, niestacjonarne)
Python dla lingwistów (IT Skills for Linguists)
UAM, Wydział Anglistyki · 2022 — 2023 · materiały
Wprowadzenie do inżynierii danych
UAM, Wydział Matematyki i Informatyki · 2020

Projekty

BIGOS V2 — benchmark dla polskiego ASR
Wyselekcjonowany benchmark łączący 24 otwarte polskie korpusy mowy (BIGOS V2 i PELCRA for BIGOS) w jeden, reprodukowalny zbiór ewaluacyjny. Opublikowany na NeurIPS 2024 (Datasets & Benchmarks Track).
Polish ASR Leaderboard
Otwarty, aktualizowany na żywo ranking 25 systemów speech-to-text na 4000+ polskich nagraniach — dokładność, koszt, prędkość i odporność.
Katalog zbiorów danych mowy dla polskiego ASR
Otwarty katalog zbiorów danych mowy dla języka polskiego, przeznaczonych do rozwoju systemów ASR.

Działalność w społeczności

GenAI in Localization 20262026
Komitet organizacyjny [komitet]

Kompetencje

Projektowanie i rozwój systemów ML w podejściu Data-Centric
Anotacja danych
Inżynieria danych
Automatyczne rozpoznawanie mowy
Zarządzanie zespołami
Zarządzanie projektami

Wyróżnienia

Best R&D Team Leader 2018 — wyróżnienie szefa Samsung Research Institute Poland za wkład w komercjalizację asystentów głosowych na rynkach europejskich.

Języki

angielski, polski