Google z modelem AI Gemini 1.5. Obsługuje nawet milion tokenów

Google zaprezentowało Gemini 1.5 – model nowej generacji czatbota sztucznej inteligencji. Koncern chwali się, że znacznie zwiększył liczbę informacji, jakie może on przetworzyć. Niedawno Gemini zastąpiło Barda.

jsx

21:53, 19.02.2024

Google z modelem AI Gemini 1.5. Obsługuje nawet milion tokenów

jsx

21:53, 19.02.2024

POLECAMY

Wydawcy

Wybierz "Osobowość medialną roku" w konkursie Wirtuale 2026

"Skrót CPK stał się mocno polityczny. Port Polska to nazwa, która promuje kraj"

Metoda na pieski. Tak Doda rozgrywa media i polityków

20 lat od największej katastrofy budowlanej w Polsce. "Asystowaliśmy ratownikom"

Dlaczego warto reklamować się w radiu?

Artykuł Sponsorowany

Dopiero co Google zmienił nazwę swojego czatbota AI Bard na Gemini, a obwieszczono pojawienie się nowej jego wersji.

„Właściwie jesteśmy już gotowi na wprowadzenie Gemini 1.5 – modelu nowej generacji, który charakteryzuje się radykalną poprawą w wielu aspektach, natomiast model Gemini 1.5 Pro osiąga jakość porównywalną do modelu Gemini 1.0 Ultra, zużywając przy tym mniej mocy obliczeniowej” - zaznacza cytowany w komunikacie na blogu Google jego prezes Sundar Pichai.

„Ta nowa generacja naszego modelu zapewnia również przełom, jeśli chodzi o rozumienie szerokiego kontekstu. Udało nam się znacznie zwiększyć liczbę informacji, jaką mogą przetworzyć nasze modele: są w stanie stale obsługiwać do miliona tokenów, co pozwala uzyskać najdłuższe jak do tej pory okno kontekstowe spośród wszystkich dostępnych na rynku wielkoskalowych modeli podstawowych” - dodaje Pichai.

Okno kontekstowe modelu AI składa się z tokenów, czyli elementów, które służą do przetwarzania informacji. Tokenami mogą być całe bloki tekstu, obrazy, filmy, dźwięk czy kod albo ich części. Im większe okno kontekstowe modelu, tym więcej informacji może on przyjąć i przetworzyć w ramach danego promptu. Dzięki temu wygenerowana odpowiedź jest bardziej spójna, przydatna i użyteczna.

##NEWS https://www.wirtualnemedia.pl/google-bard-gemini-pro-jak-uzywac-gdzie-znalezc-kiedy-dostepny-w-polsce,7169439591200385a ##

„Dłuższe okna kontekstowe stanowią obietnicę tego, czego możemy spodziewać się w przyszłości. Zapewnią zupełnie nowe możliwości i pomogą programistom w tworzeniu znacznie bardziej przydatnych modeli i aplikacji. Cieszymy się, że możemy zaoferować ograniczoną wersję testową tej eksperymentalnej funkcji programistom i klientom korporacyjnym” - mówi prezes Google i Alphabetu.

Milion tokenów

„Większe możliwości w zakresie trenowania modelu Gemini 1.5 i korzystania z niego udało nam się osiągnąć dzięki nowej architekturze Mixture–of-Experts (MoE)” - informuje Demis Hassabis, prezes Google DeepMind. „Pierwszym modelem Gemini 1.5, który udostępniamy do wczesnych testów, jest Gemini 1.5 Pro – średniej wielkości model multimodalny zoptymalizowany pod kątem skalowania w szerokim zakresie zadań i działający na poziomie podobnym do modelu 1.0 Ultra, naszego największego do tej pory modelu. Gemini 1.5 Pro obejmuje także przełomową eksperymentalną funkcję rozumienia długiego kontekstu” - podkreśla.

Gemini 1.5 Pro standardowo wyposażony jest w okno kontekstowe o pojemności 128 tys. tokenów, ale od piątku ograniczona grupa programistów i klientów korporacyjnych może w ramach wersji przedpremierowej korzystać z okna kontekstowego o pojemności aż do miliona tokenów jako część usługi AI Studio i platformy Vertex AI.

„Okno kontekstowe o pojemności całego miliona tokenów wymaga dużych mocy obliczeniowych i dalszych optymalizacji mających na celu zmniejszenie opóźnień, nad czym wciąż pracujemy” - dodaje Hassabis.

Gemini 1.5 powstał w oparciu o badania firmy nad architekturą Transformer i MoE. Tradycyjna architektura Transformer działa jak jedna wielka sieć neuronowa, natomiast architektura MoE jest podzielona na mniejsze, wyspecjalizowane sieci neuronowe.

##NEWS https://www.wirtualnemedia.pl/artykul/openai-sora-wideo-z-tekstu ##

W zależności od rodzaju danych wejściowych modele MoE uczą się selektywnie aktywować tylko najbardziej odpowiednie ścieżki w swoich sieciach neuronowych, co znacząco podnosi wydajność modelu. Google twierdzi, że jako pierwszy zaczął stosować architekturę MoE w deep learningu w ramach takich badań jak m.in. Sparsely-Gated MoE, GShard-Transformer, Switch-Transformer czy M4.

Najnowsze innowacje w architekturze modeli pozwalać mają Gemini 1.5 szybciej uczyć się złożonych zadań i utrzymywać jakość, a przy tym sprawiać, że trenowanie modelu i korzystanie z niego będzie znacznie efektywniejsze.

Pojemność okna kontekstowego w modelu Gemini 1.0 wynosiła pierwotnie 32 tys. tokenów. Nowa wersja jest w stanie uruchomić do miliona tokenów. Oznacza to, że model 1.5 Pro jest w stanie przetworzyć ogromną liczbę informacji za jednym razem, w tym 1 godzinę filmu, 11 godzin nagrania dźwiękowego, bazy kodów zawierające ponad 30 tys. linijek kodu czy ponad 700 tys. słów tekstu. W ramach badań Google udało się także przetestować okno kontekstowe o pojemności aż do 10 mln tokenów.

Rozumienie ogromnych ilości informacji

Model 1.5 Pro potrafi przeanalizować, sklasyfikować i podsumować dużą ilość danych w ramach danego prompta. Na przykład po otrzymaniu liczącej 402 strony transkrypcji z misji Apollo 11 na Księżyc wyciąga wnioski na temat rozmów, wydarzeń, obrazów i innych szczegółów znajdujących się w tym dokumencie.

Gemini 1.5 Pro potrafi wykonywać bardzo skomplikowane zadania polegające na przetwarzaniu i rozumieniu różnego rodzaju danych, w tym filmów. Model na przykład przeanalizował różne punkty fabuły i wydarzenia w 44-minutowym niemym filmie Bustera Keatona, a nawet zinterpretował drobne szczegóły filmu, które można łatwo przeoczyć.

Testowana na kompleksowym panelu oceny tekstu, kodu, obrazu, dźwięku i wideo wersja 1.5 Pro przewyższa wersję 1.0 Pro w przypadku 87 proc. testów porównawczych używanych do opracowywania naszych duży modeli językowych (LLM). W porównaniu z wersją 1.0 Ultra w tych samych testach wydajność jest na podobnym poziomie.

Google zapowiada, że gdy model będzie gotowy do udostępnienia szerszemu gronu użytkowników, wprowadzi także wersję 1.5 Pro z oknem kontekstowym o pojemności 128 tys. tokenów w standardzie. Firma planuje wprowadzenie poziomów cenowych rozpoczynających się od wersji z oknem kontekstowym o pojemności właśnie 128 tys. tokenów i skalowanych do miliona tokenów w miarę ulepszania modelu.

Zaprezentowany przez Google na początku lutego ub.r. Bard jest oparty na własnym modelu językowym koncernu LaMDA (Language Model for Dialogue Applications, czyli po polsku: język modelowy dla aplikacji dialogowych). Udziela odpowiedzi tekstowych na najróżniejsze pytania internautów, proszony o pomysły w jakiejś sprawie przedstawia kilka wariantów. Użytkownicy w ramach jednej rozmowy mogą prosić o rozwijanie wybranych wątków czy doprecyzowywanie informacji. Cały tekst odpowiedzi pojawia się od razu, a nie słowo po słowie. Początkowo narzędzie trafiło do testów, a następnie osób z z USA i Wielkiej Brytanii.

Google z modelem AI Gemini 1.5. Obsługuje nawet milion tokenów

PRACA.WIRTUALNEMEDIA.PL

Ponad 2 miliony użytkowników miesięcznie

Account manager

Szef / Szefowa Redakcyjnych Projektów Specjalnych

Wydawca Wprost.pl/Redaktor

Dziennikarz/ Dziennikarka (Social Media)

Redaktor / Redaktorka Wideo

Specjalista ds. social mediów w Grupie PTWP

Redaktor prowadzący / Redaktorka prowadząca serwis dom.wp.pl

Redaktor / Redaktorka serwisu dom.wp.pl

Specjalist(k)a ds. nowych mediów

NAJNOWSZE WIADOMOŚCI

Były szef CBA w zarządzie Orlenu. Zajmie się bezpieczeństwem

"Puls Biznesu" przeprasza Pieńkowską. Za tekst o wywózce męża w bagażniku

Cały list Czuchnowskiego do zarządu. "Nie pokonał nas PiS, cios przychodzi z wewnątrz" [TYLKO U NAS]

Republika się ugięła. Koncesja opłacona za rok

900 mln zł więcej w polskiej reklamie. Napędzają ją sklepy i banki, telewizja z małym wzrostem

Była zmiana, jest nowy podział obowiązków. Dzieje się w zarządzie Kino Polska TV

Oto najcenniejsi prezesi firm giełdowych. W czołówce szefowie LPP, Modivo i Orange

Google z modelem AI Gemini 1.5. Obsługuje nawet milion tokenów

Dołącz do newslettera Wirtualne Media!

Dziękujemy za zapisanie się do newslettera Wirtualne Media

PRACA.WIRTUALNEMEDIA.PL

Ponad 2 miliony użytkowników miesięcznie

Account manager

Szef / Szefowa Redakcyjnych Projektów Specjalnych

Wydawca Wprost.pl/Redaktor

Dziennikarz/ Dziennikarka (Social Media)

Redaktor / Redaktorka Wideo

Specjalista ds. social mediów w Grupie PTWP

Redaktor prowadzący / Redaktorka prowadząca serwis dom.wp.pl

Redaktor / Redaktorka serwisu dom.wp.pl

Specjalist(k)a ds. nowych mediów

NAJNOWSZE WIADOMOŚCI

Były szef CBA w zarządzie Orlenu. Zajmie się bezpieczeństwem

"Puls Biznesu" przeprasza Pieńkowską. Za tekst o wywózce męża w bagażniku

Cały list Czuchnowskiego do zarządu. "Nie pokonał nas PiS, cios przychodzi z wewnątrz" [TYLKO U NAS]

Republika się ugięła. Koncesja opłacona za rok

900 mln zł więcej w polskiej reklamie. Napędzają ją sklepy i banki, telewizja z małym wzrostem

Była zmiana, jest nowy podział obowiązków. Dzieje się w zarządzie Kino Polska TV

Oto najcenniejsi prezesi firm giełdowych. W czołówce szefowie LPP, Modivo i Orange