SzukajSzukaj
dołącz do nas Facebook Google Linkedin Twitter

Google z modelem AI Gemini 1.5. Obsługuje nawet milion tokenów

Google zaprezentowało Gemini 1.5 – model nowej generacji czatbota sztucznej inteligencji. Koncern chwali się, że znacznie zwiększył liczbę informacji, jakie może on przetworzyć. Niedawno Gemini zastąpiło Barda.

Dopiero co Google zmienił nazwę swojego czatbota AI Bard na Gemini, a obwieszczono pojawienie się nowej jego wersji.

„Właściwie jesteśmy już gotowi na wprowadzenie Gemini 1.5 – modelu nowej generacji, który charakteryzuje się radykalną poprawą w wielu aspektach, natomiast model Gemini 1.5 Pro osiąga jakość porównywalną do modelu Gemini 1.0 Ultra, zużywając przy tym mniej mocy obliczeniowej” - zaznacza cytowany w komunikacie na blogu Google jego prezes Sundar Pichai.

„Ta nowa generacja naszego modelu zapewnia również przełom, jeśli chodzi o rozumienie szerokiego kontekstu. Udało nam się znacznie zwiększyć liczbę informacji, jaką mogą przetworzyć nasze modele: są w stanie stale obsługiwać do miliona tokenów, co pozwala uzyskać najdłuższe jak do tej pory okno kontekstowe spośród wszystkich dostępnych na rynku wielkoskalowych modeli podstawowych” - dodaje Pichai.

Okno kontekstowe modelu AI składa się z tokenów, czyli elementów, które służą do przetwarzania informacji. Tokenami mogą być całe bloki tekstu, obrazy, filmy, dźwięk czy kod albo ich części. Im większe okno kontekstowe modelu, tym więcej informacji może on przyjąć i przetworzyć w ramach danego promptu. Dzięki temu wygenerowana odpowiedź jest bardziej spójna, przydatna i użyteczna.

„Dłuższe okna kontekstowe stanowią obietnicę tego, czego możemy spodziewać się w przyszłości. Zapewnią zupełnie nowe możliwości i pomogą programistom w tworzeniu znacznie bardziej przydatnych modeli i aplikacji. Cieszymy się, że możemy zaoferować ograniczoną wersję testową tej eksperymentalnej funkcji programistom i klientom korporacyjnym” - mówi prezes Google i Alphabetu.

Milion tokenów

„Większe możliwości w zakresie trenowania modelu Gemini 1.5 i korzystania z niego udało nam się osiągnąć dzięki nowej architekturze Mixture–of-Experts (MoE)” - informuje Demis Hassabis, prezes Google DeepMind. „Pierwszym modelem Gemini 1.5, który udostępniamy do wczesnych testów, jest Gemini 1.5 Pro – średniej wielkości model multimodalny zoptymalizowany pod kątem skalowania w szerokim zakresie zadań i działający na poziomie podobnym do modelu 1.0 Ultra, naszego największego do tej pory modelu. Gemini 1.5 Pro obejmuje także przełomową eksperymentalną funkcję rozumienia długiego kontekstu” - podkreśla.

Gemini 1.5 Pro standardowo wyposażony jest w okno kontekstowe o pojemności 128 tys. tokenów, ale od piątku ograniczona grupa programistów i klientów korporacyjnych może w ramach wersji przedpremierowej korzystać z okna kontekstowego o pojemności aż do miliona tokenów jako część usługi AI Studio i platformy Vertex AI.

„Okno kontekstowe o pojemności całego miliona tokenów wymaga dużych mocy obliczeniowych i dalszych optymalizacji mających na celu zmniejszenie opóźnień, nad czym wciąż pracujemy” - dodaje Hassabis.

Gemini 1.5 powstał w oparciu o badania firmy nad architekturą Transformer i MoE. Tradycyjna architektura Transformer działa jak jedna wielka sieć neuronowa, natomiast architektura MoE jest podzielona na mniejsze, wyspecjalizowane sieci neuronowe.

##NEWS https://www.wirtualnemedia.pl/artykul/openai-sora-wideo-z-tekstu ##

W zależności od rodzaju danych wejściowych modele MoE uczą się selektywnie aktywować tylko najbardziej odpowiednie ścieżki w swoich sieciach neuronowych, co znacząco podnosi wydajność modelu. Google twierdzi, że jako pierwszy zaczął stosować architekturę MoE w deep learningu w ramach takich badań jak m.in. Sparsely-Gated MoE, GShard-Transformer, Switch-Transformer czy M4.

Najnowsze innowacje w architekturze modeli pozwalać mają Gemini 1.5 szybciej uczyć się złożonych zadań i utrzymywać jakość, a przy tym sprawiać, że trenowanie modelu i korzystanie z niego będzie znacznie efektywniejsze.

Pojemność okna kontekstowego w modelu Gemini 1.0 wynosiła pierwotnie 32 tys. tokenów. Nowa wersja jest w stanie uruchomić do miliona tokenów. Oznacza to, że model 1.5 Pro jest w stanie przetworzyć ogromną liczbę informacji za jednym razem, w tym 1 godzinę filmu, 11 godzin nagrania dźwiękowego, bazy kodów zawierające ponad 30 tys. linijek kodu czy ponad 700 tys. słów tekstu. W ramach badań Google udało się także przetestować okno kontekstowe o pojemności aż do 10 mln tokenów.

Rozumienie ogromnych ilości informacji

Model 1.5 Pro potrafi przeanalizować, sklasyfikować i podsumować dużą ilość danych w ramach danego prompta. Na przykład po otrzymaniu liczącej 402 strony transkrypcji z misji Apollo 11 na Księżyc wyciąga wnioski na temat rozmów, wydarzeń, obrazów i innych szczegółów znajdujących się w tym dokumencie.

Gemini 1.5 Pro potrafi wykonywać bardzo skomplikowane zadania polegające na przetwarzaniu i rozumieniu różnego rodzaju danych, w tym filmów. Model na przykład przeanalizował różne punkty fabuły i wydarzenia w 44-minutowym niemym filmie Bustera Keatona, a nawet zinterpretował drobne szczegóły filmu, które można łatwo przeoczyć.

Testowana na kompleksowym panelu oceny tekstu, kodu, obrazu, dźwięku i wideo wersja 1.5 Pro przewyższa wersję 1.0 Pro w przypadku 87 proc. testów porównawczych używanych do opracowywania naszych duży modeli językowych (LLM). W porównaniu z wersją 1.0 Ultra w tych samych testach wydajność jest na podobnym poziomie.

Google zapowiada, że gdy model będzie gotowy do udostępnienia szerszemu gronu użytkowników, wprowadzi także wersję 1.5 Pro z oknem kontekstowym o pojemności 128 tys. tokenów w standardzie. Firma planuje wprowadzenie poziomów cenowych rozpoczynających się od wersji z oknem kontekstowym o pojemności właśnie 128 tys. tokenów i skalowanych do miliona tokenów w miarę ulepszania modelu.

Zaprezentowany przez Google na początku lutego ub.r. Bard jest oparty na własnym modelu językowym koncernu LaMDA (Language Model for Dialogue Applications, czyli po polsku: język modelowy dla aplikacji dialogowych). Udziela odpowiedzi tekstowych na najróżniejsze pytania internautów, proszony o pomysły w jakiejś sprawie przedstawia kilka wariantów. Użytkownicy w ramach jednej rozmowy mogą prosić o rozwijanie wybranych wątków czy doprecyzowywanie informacji. Cały tekst odpowiedzi pojawia się od razu, a nie słowo po słowie. Początkowo narzędzie trafiło do testów, a następnie osób z z USA i Wielkiej Brytanii.

Dołącz do dyskusji: Google z modelem AI Gemini 1.5. Obsługuje nawet milion tokenów

0 komentarze
Publikowane komentarze są prywatnymi opiniami użytkowników portalu. Wirtualnemedia.pl nie ponosi odpowiedzialności za treść opinii. Jeżeli którykolwiek z postów na forum łamie dobre obyczaje, zawiadom nas o tym redakcja@wirtualnemedia.pl