AI zaczyna mówić jak człowiek. Google wprowadza syntezator mowy

Google zaprezentowało nowy model sztucznej inteligencji do generowania mowy – Gemini 3.1 Flash TTS. To kolejny krok w rozwoju technologii text-to-speech (TTS), który ma nie tylko poprawić jakość generowanego dźwięku, ale także zwiększyć kontrolę nad sposobem, w jaki AI "mówi".

Kinga Walczyk
Kinga Walczyk
Udostępnij artykuł:
AI zaczyna mówić jak człowiek. Google wprowadza syntezator mowy
fot. Arthur Osipyan; Unsplash

Jednym z głównych założeń Gemini 3.1 Flash TTS jest osiągnięcie maksymalnie naturalnego brzmienia. Według oficjalnych informacji Google, model generuje mowę bardziej realistyczną niż wcześniejsze rozwiązania, lepiej odwzorowując intonację, emocje i rytm ludzkiej wypowiedzi.

To oznacza, że generowane nagrania mogą być trudniejsze do odróżnienia od prawdziwego głosu, co ma znaczenie m.in. w produkcji audiobooków, podcastów czy systemach asystentów głosowych.

Precyzyjna kontrola nad głosem

Największą innowacją w Gemini 3.1 Flash TTS ma być możliwość bardzo szczegółowego sterowania sposobem mówienia. Użytkownicy mogą korzystać z tzw. audio tagów, które pozwalają określić emocje, tempo czy styl wypowiedzi bezpośrednio w tekście. Przykładowo, możliwe jest dodanie znaczników takich jak: szept, radość, złość, pauzy.

Model obsługuje ponad 200 takich tagów, co ma osiągać niespotykany dotąd poziom kontroli nad generowanym dźwiękiem.

Wielojęzyczność i różnorodność głosów

Gemini 3.1 Flash TTS wspiera ponad 70 języków i wariantów regionalnych. Dodatkowo oferuje kilkadziesiąt predefiniowanych głosów, które można dopasować do konkretnego zastosowania.

Model potrafi również generować dialogi z udziałem wielu mówców.

Każde wygenerowane nagranie ma zawierać cyfrowy znak wodny SynthID, który ma umożliwiać identyfikację treści stworzonych przez AI.

Obecnie Gemini 3.1 Flash TTS jest dostępny w wersji testowej poprzez narzędzia takie jak Google AI Studio, Vertex AI oraz API Gemini.

PRACA.WIRTUALNEMEDIA.PL

NAJNOWSZE WIADOMOŚCI

Android TV liderem w Europie. Dzięki chińskim telewizorom rośnie V

Android TV liderem w Europie. Dzięki chińskim telewizorom rośnie V

Dziennikarstwo śledcze ma sens. Miliarder wycofał wielomilionowy pozew wobec gazety

Dziennikarstwo śledcze ma sens. Miliarder wycofał wielomilionowy pozew wobec gazety

Stworzył firmę, która wywróciła rynek do góry nogami. Po 30 latach żegna się z Netfliksem

Stworzył firmę, która wywróciła rynek do góry nogami. Po 30 latach żegna się z Netfliksem

Zygmunt Solorz zainwestuje w USA? Spotkał się z Trumpem i szefem OpenAI

Zygmunt Solorz zainwestuje w USA? Spotkał się z Trumpem i szefem OpenAI

Polski rynek laptopów poleasingowych w 2026: dlaczego segment B2B dojrzewa i co zmienia się w strategii zakupowej MŚP
Materiał reklamowy

Polski rynek laptopów poleasingowych w 2026: dlaczego segment B2B dojrzewa i co zmienia się w strategii zakupowej MŚP

Youtuber oskarżany o dezinformację w radzie prezydenckiej. Nawrocki: to nie błąd

Youtuber oskarżany o dezinformację w radzie prezydenckiej. Nawrocki: to nie błąd