Doświadczenie
- Allegro, Warszawa (hybryda)·12.2021 — teraz
Head of Data Annotation & QA Services
- Definiowanie standardów zapewnienia jakości dla produktów AI.
- Rozwijanie organizacyjnych zdolności anotacji danych poprzez partnerstwa z dostawcami, przebudowę narzędzi i szkolenia zespołów produktowych/technologicznych z Data-Centric AI.
- Realizacja projektów anotacyjnych na potrzeby modelowania i ewaluacji w Tłumaczeniu Maszynowym, Wyszukiwaniu oraz innych rozwiązaniach AI — dla klientów, partnerów i wewnątrz organizacji.
- Samsung, Warszawa·04.2017 — 11.2021
Head of Language Data Operations
- Kierowanie rozproszonym zespołem odpowiedzialnym za end-to-end zarządzanie zbiorami danych ML dla systemów NLP (50+ inżynierów i ekspertów dziedzinowych w 5 krajach).
- Właściciel infrastruktury danych i narzędzi używanych przez międzynarodowe zespoły R&D.
- Samsung, Warszawa·03.2011 — 03.2017
Inżynier danych i lider techniczny
- Kierowanie wielkoskalowymi projektami zbierania i transkrypcji danych mowy na potrzeby rozwoju systemów automatycznego rozpoznawania mowy dla wielu języków i urządzeń.
Wykształcenie
- Uniwersytet im. Adama Mickiewicza w Poznaniu·09.2019 — 06.2024
Doktorat z informatyki
Zastosowanie metod zarządzania zbiorami danych mowy do ewaluacji systemów rozpoznawania mowy dla języka polskiego.
- Politechnika Poznańska·10.2005 — 06.2010
Mgr inż. telekomunikacji
Specjalność: systemy multimedialne i przetwarzanie sygnałów.
Publikacje
- Junczyk, M., Christop, I., & Pęzik, P. (2024). Task 3: Polish Automatic Speech Recognition Challenge. PolEval 2024 Workshop. [pdf]
- Junczyk, M. (2024). BIGOS V2 — Benchmark for Polish ASR: Curated Datasets and Tools for Reproducible Evaluation. NeurIPS 2024 (Datasets & Benchmarks Track). [poster]
- Junczyk, M. (2024). A survey of Polish ASR speech datasets. Poznań Studies in Contemporary Linguistics 60(1), 27–52. [doi]
- Junczyk, M. (2023). BIGOS — Benchmark Intended Grouping of Open Speech Corpora for Polish ASR. FedCSIS 2023, Warsaw, 585–590. [pdf]
- Jeziorski, A., Sawicki, F., Solop, O., Junczyk, M., Sikora, M., & Zietkiewicz, T. (2020). Industrial ASR troubleshooting tool. LREC 2020 Industry Track, 10–14, ELRA. [pdf]
Dydaktyka
Warsztaty z ewaluacji systemów rozpoznawania mowy (stacjonarne)
Warsztaty z ewaluacji systemów rozpoznawania mowy (niestacjonarne)
Python dla lingwistów
UAM, Wydział Anglistyki · 2022 — 2023
Wprowadzenie do inżynierii danych
UAM, Wydział Matematyki i Informatyki · 2020
Projekty
- Katalog zbiorów danych mowy dla polskiego ASR
Otwarty katalog zbiorów danych mowy dla języka polskiego, przeznaczonych do rozwoju systemów ASR.
Kompetencje
- Projektowanie i rozwój systemów ML w podejściu Data-Centric
- Anotacja danych
- Inżynieria danych
- Automatyczne rozpoznawanie mowy
- Zarządzanie zespołami
- Zarządzanie projektami
Wyróżnienia
Best R&D Team Leader 2018 — wyróżnienie szefa Samsung Research Institute Poland za wkład w komercjalizację asystentów głosowych na rynkach europejskich.
Języki
angielski, polski
