Za kulisami: zrozumienie technologii, na której opiera się Siri
Wirtualni asystenci, którzy wykorzystują sztuczną inteligencję do odpowiadania na pytania użytkowników, wykonywania zadań i przekazywania przydatnych informacji, zyskują coraz więcej fanów. Tego typu technologia cieszy się popularnością z prostych powodów — jest intuicyjna, łatwa w użyciu i umożliwia użytkownikom interakcję z innymi inteligentnymi urządzeniami za pomocą poleceń głosowych. Najbardziej znane rozwiązania tego typu to Alexa, Google Assistant i Siri
Oprócz aktywacji i sterowania głosowego, dobre i dopracowane rozwiązanie tego typu może wykonywać szereg zadań, takich jak między innymi ustawianie przypomnień, wykonywanie połączeń, wysyłanie wiadomości, odtwarzanie muzyki, udostępnianie prognozy pogody, odpowiadanie na pytania, sterowanie kompatybilnymi urządzeniami domowymi i wiele innych
Każda z wyżej wymienionych opcji również nieustannie się uczy, czyli doskonali swoje umiejętności w miarę zdobywania większej ilości danych użytkownika. Wszystkie są dostępne na różnych urządzeniach, takich jak smartfony, tablety, inteligentne głośniki i telewizory Smart TV. Przejdźmy teraz do omówienia ich cech technicznych, opierając się o rozwiązanie firmy Apple, czyli Siri.
Siri – wirtualny asystent firmy Apple
Siri to rozwiązanie zintegrowane w pełni z ekosystemem firmy Apple, które w naturalny sposób współpracuje z innymi urządzeniami i usługami firmy, takimi jak iPhone, iPad, Mac, Apple Watch, Apple Music, Apple TV i HomeKit. Ma również nieco bardziej humorystyczny ton osobowości niż inne wirtualne asystentki.
Na życzenie Siri wysyła SMS-y, wykonuje połączenia, odpowiada na SMS-y, wysyła e-maile i inicjuje rozmowy wideo FaceTime. Dodatkowo ustawia przypomnienia, tworzy wydarzenia w kalendarzu oraz ustawia alarmy i znaczniki czasowe. Jest w stanie odpowiadać na pytania, dostarczać informacji o pogodzie, aktualnościach, wynikach sportowych, giełdach, kursach walut i wiele innych danych.
Między innymi możesz uzyskiwać wskazówki i informacje o ruchu drogowym podczas korzystania z Apple Maps, sterować odtwarzaniem muzyki, podcastów i książek audio, a nawet otrzymywać sugestie na podstawie swoich preferencji, jeśli jesteś subskrybentem usługi Apple Music. Siri współpracuje także z wieloma aplikacjami innych firm, a dzięki zestawowi HomeKit firmy Apple może sterować różnymi inteligentnymi urządzeniami w domu, takimi jak żarówki i zamki.
AI w Siri
Według plotek Apple inwestuje coraz więcej środków w rozwój technologii sztucznej inteligencji (AI). Firma przygotowuje narzędzia generatywne AI do obsługi rozmów i mediów. Budowanie modeli konwersacyjnych trwa w Apple od co najmniej pięciu lat, kiedy to lider branży John Giannandrea utworzył zespół zajmujący się modelami językowymi (LLM). W zeszłym roku wraz z popularyzacją ChatGPT firma skupiła się na tym sektorze.
Z doniesień wynika, że nad rozwojem sztucznej inteligencji w Apple pracują jednocześnie co najmniej dwa zespoły:
- jeden zajmujący się rozwojem modelu skupionego na wirtualnym „widzeniu” (obrazy, filmy i sceny 3D);
- oraz drugi skupiający się na multimodalności samego asystenta, czyli zdolności jednoczesnego przetwarzania tekstu, obrazu i filmów.
Dokładne przeznaczenie każdego z tych modeli nie jest znane i możliwe, że są one przeznaczone do użytku wewnętrznego. Istnieją jednak oznaki, że Apple planuje włączyć tę technologię do Siri, rozszerzając potencjał wirtualnego asystenta.
Jaka byłaby Siri wzbogacona o sztuczną inteligencję?
Jak można było się dowiedzieć z oficjalnego komunikatu, niedawno deweloperom firmy Apple udało się z sukcesem połączyć Siri z ChatGPT opartym o OpenAI. Dzięki połączeniu narzędzi powstał naprawdę solidny wirtualny asystent, choć dostępny obecnie jeszcze wyłącznie jako prototyp. Eksperyment pokazał jednak potencjał generatywnej sztucznej inteligencji jako wirtualnych asystentów. Oprócz możliwości łatwiejszego interpretowania poleceń, asystenty takie będą także mogły rozumieć kontekst i sprawniej sugerować rozwiązania.
Cyfrowy asystent firmy Apple, czyli Siri, zaczyna uczyć się na przykład zupełnie nowego języka. W rzeczywistości jest to kolejny chiński dialekt używany w Szanghaju i jego okolicach. Możemy nazwać ten język szanghajskim, ale nie ma on oficjalnego, uznawanego na arenie międzynarodowej statusu. Mimo to Apple zdecydowało się dodać ten język do listy już obsługiwanych, ponieważ posługuje się nim mnóstwo osób, a Chiny są jednym z najważniejszych rynków dla tej firmy.
Ale czy zastanawiałeś się kiedyś, jak cyfrowy asystent „uczy się” nowego języka? Lider zespołu pracującego nad przystosowaniem Siri do nowych języków, Alex Acera, rozmawiał z Reutersem i wyjaśnił mniej więcej, jak przebiega proces włączania nowego języka.
Ludzie czytają tekst
Na początek firma zaprasza kilka osób do czytania fragmentów tekstu i nagrywa całość, aby „nakarmić” tymi danymi Siri. Fragmenty te są następnie transkrybowane, aby asystent dokładnie wiedział, co zostało powiedziane. Procedura jest wykonywana z użyciem szeregu akcentów, tak aby oprogramowanie mogło rozpoznać różne sposoby wypowiadania tych samych słów. Firma rejestruje także serię specyficznych dźwięków odtwarzanych przez różne głosy.
Dzięki temu Apple zaczyna budować „tryb dyktowania”, który jest w zasadzie narzędziem tłumaczącym tekst na mowę w nowym języku. Gdy użytkownicy przeprowadzają wyszukiwanie głosowe, Apple nagrywa małe fragmenty dźwięku, aby zapewnić im anonimowość i wysyła je do swoich ekspertów z dziedziny transkrypcji słów. Warto zauważyć, że w tej fazie zawsze brany jest pod uwagę hałas otoczenia, który Siri musi odfiltrować w trakcie pracy.
Ta procedura z udziałem ludzi pomaga zmniejszyć o połowę liczbę błędnych interpretacji Siri, dlatego firma nie zautomatyzowała jeszcze całkowicie tego rozwiązania. Problem w tym, że nie jest ono jednak w pełni skalowalne, co do dziś jest główną słabością tego wirtualnego asystenta.
1161 / zawsz / Siri