Polskie modele AI z pilotażem w tym roku. Co jest największym wyzwaniem?

PLLuM, czyli modele polskiej sztucznej inteligencji, w tym roku będą pilotażowo wdrożone w resorcie cyfryzacji i w wybranym urzędzie - poinformowała dr Agnieszka Karlińska, która pokieruje konsorcjum HIVE. Największym wyzwaniem było przeszkolenie przez ekspertów modeli AI.

Patryk Pallus
Patryk Pallus
Udostępnij artykuł:
Polskie modele AI z pilotażem w tym roku. Co jest największym wyzwaniem?
fot. Shutterstock

Ministerstwo Cyfryzacji przedstawiło w tym tygodniu PLLuM, czyli 18 modeli polskiej sztucznej inteligencji przeznaczonych dla firm, administracji publicznej i naukowców, oraz chatbot, z którego darmo może skorzystać każdy użytkownik.

"HIVE to wdrożeniowa kontynuacja PLLuM, realizowana do końca 2025 roku. Rozszerzamy konsorcjum o dwie dodatkowe jednostki, czyli Centralny Ośrodek Informatyki (COI) i Cyfronet AGH" - podała PAP dr Agnieszka Karlińska z Ośrodka Badań nad Bezpieczeństwem Sztucznej Inteligencji w NASK. Wyjaśniła, że COI zapewni wsparcie wdrożeniowe, a Cyfronet, który dysponuje największym superkomputerem w Polsce, moc obliczeniową.

Modele PLLuM będą rozwijane pod kątem zastosowań w urzędach, w postaci tzw. asystentów urzędniczych oraz asystenta w mObywatelu. Inteligentni asystenci mają mieć formę chatbotów i będą się specjalizować w pytaniach zadawanych urzędnikom i przez urzędników oraz udzielaniu odpowiedzi na pytania Polaków w mObywatelu - sprecyzowała dr Karlińska.

Jak poinformowała, Ministerstwo Cyfryzacji planuje pilotażowe wdrożenie modeli w resorcie w tym roku. "Chcemy je też pilotażowo wdrożyć w jednym wybranym urzędzie, później chcielibyśmy udostępnić rozwiązania AI w kolejnych" - dodała.

"Dysponujemy małymi modelami, które jak najbardziej można będzie wdrożyć nawet w mniejszych urzędach" - podkreśliła. Wyjaśniła, że jest to możliwe, ponieważ część modeli zostało stworzonych w architekturze MoE (ang. Mixture of Experts), która optymalizuje liczbę aktywnych parametrów, co poprawia wydajność i redukuje zużycie zasobów.

Do głównych wyzwań przy tworzeniu polskiego modelu AI należało zgromadzenie odpowiednio dużego zbioru danych w języku polskim - przekazała ekspertka.

"Dbaliśmy o to, żeby dane pozyskiwać w sposób etyczny i legalny. Rozpoczęliśmy od gruntownej analizy stanu prawnego, w szczególności przepisów prawa polskiego i unijnego właściwych dla ochrony praw autorskich. Duży nacisk położyliśmy na pozyskiwanie danych bezpośrednio od wydawców na podstawie umów licencyjnych. W przypadku danych ze źródeł publicznie dostępnych weryfikowaliśmy licencje kolejnych zasobów oraz obecność zastrzeżeń względem TDM, czyli dozwolonego użytku w zakresie eksploracji tekstów i danych" - podkreśliła.

Jak wskazała, kolejnym wyzwaniem było dostrajanie i "wychowanie" modeli na podstawie tzw. instrukcji i preferencji, które z założenia miały być "przede wszystkim organiczne, tzn. opracowywane przez ludzi".

Instrukcje to zestawy zapytań (ang. prompty, pl. pobudzenia) i wzorcowych odpowiedzi, na podstawie których model sztucznej inteligencji uczy się, jak wykonywać konkretne zadania, np. tworzyć e-maile - wyjaśniła dr Karlińska. Jak dodała, "ręczne" tworzenie instrukcji polegało na tym, że osoby działające w PLLuM, głównie językoznawcy, pisali pobudzenia, tak jak robi to użytkownik czatbota, a następnie tworzyli modelowe odpowiedzi i całe dialogi.

Preferencje to natomiast zestawy składające się z pobudzenia, odpowiedzi preferowanej (lepszej) i odpowiedzi odrzucanej (gorszej) – wskazała ekspertka.

"Poprzez preferencje chcieliśmy nauczyć modele tworzenia odpowiedzi z jednej strony poprawnych i pomocnych, z drugiej – możliwie wyważonych i bezpiecznych. Dlatego odpowiedzi ocenialiśmy jako lepsze albo gorsze nie tylko pod kątem merytorycznym, ale także pod względem bezstronności i szeroko rozumianego bezpieczeństwa" - podkreśliła. Jak wyjaśniła, zespół sprawdzał, czy odpowiedzi modelu są wolne od potencjalnie szkodliwych dla odbiorcy treści, np. obraźliwych, niezgodnych z normami społecznymi czy wątpliwych pod względem etycznym i prawnym.

Jak podkreśliła, ręczne dostrajanie i "wychowywanie" polskiej AI było zadaniem czasochłonnym, gdyż trwało kilka miesięcy i wymagało koordynacji pracy wielu osób jednocześnie, szczególnie że "nie ma jasnych wytycznych, jak tworzyć instrukcje i preferencje dla modeli AI i jaka powinna być ich typologia".

"Właściciele zagranicznych modeli zazwyczaj nie publikują informacji na ten temat. Musieliśmy podejść do zadania eksperymentalnie. Myślę, że z dobrym skutkiem" - oceniła.

Kto stworzył polskie AI?

Polskie AI zostało opracowane w ramach konsorcjum PLLuM przez Politechnikę Wrocławską (dotychczasowy lider konsorcjum), Instytut Podstaw Informatyki PAN, Instytut Slawistyki PAN, Naukową i Akademicką Sieć Komputerową (NASK-PIB), Ośrodek Przetwarzania Informacji (OPI-PIB) oraz Uniwersytet Łódzki. Zamiast utworzonego wcześniej konsorcjum PLLuM, którego działania były rozpisane do końca 2024 r., resort zapowiedział powstanie konsorcjum HIVE, które będzie rozwijać polską sztuczną inteligencję i wdrażać ją w administracji. Na jego czele stanie - zgodnie z zapowiedzią MC - dr Agnieszka Karlińska z Ośrodka Badań nad Bezpieczeństwem Sztucznej Inteligencji w NASK.

Dane w ramach konsorcjum PLLuM zbierane były od lutego 2024 r.; trenowanie modelu trwało od czerwca do września ub.r.; w październiku model był douczany, a w listopadzie optymalizowany; według pierwotnych planów miał zostać opublikowany w grudniu ub.r.

Projekt realizowany jest na zlecenie Ministerstwa Cyfryzacji, które jest właścicielem wyników i kontroluje rozwój PLLuM. W 2024 roku resort przeznaczył na niego 14,5 mln zł, a w br. zabezpieczono 19 mln zł.

PRACA.WIRTUALNEMEDIA.PL

NAJNOWSZE WIADOMOŚCI

Ziętara zginął, bo był dziennikarzem. Kto i dlaczego straszy teraz media, które o tym piszą?

Ziętara zginął, bo był dziennikarzem. Kto i dlaczego straszy teraz media, które o tym piszą?

KRRiT przedłuża koncesje. Chodzi m.in. o stacje Polsatu i Canal+

KRRiT przedłuża koncesje. Chodzi m.in. o stacje Polsatu i Canal+

Polsat Box udostępnił za darmo wiele kanałów

Polsat Box udostępnił za darmo wiele kanałów

Współpracownica Agory bez pieniędzy po porodzie? Firma odpowiada "Solidarności"

Współpracownica Agory bez pieniędzy po porodzie? Firma odpowiada "Solidarności"

KRRiT zaakceptowała plany mediów publicznych. Co z likwidacją kanałów TVP?

KRRiT zaakceptowała plany mediów publicznych. Co z likwidacją kanałów TVP?

Dwa nowe tytuły w ofercie InPostu. Zamówisz je do Paczkomatu

Dwa nowe tytuły w ofercie InPostu. Zamówisz je do Paczkomatu