Umělá inteligence už vše přečetla a nemá se z čeho učit. „Musí přejít na syntetická data,“ říká Musk
PROBLÉMY KOLEM UMĚLÉ INTELIGENCE
Svět umělé inteligence narazil na nečekaný problém. Zdroje lidských dat na internetu nejsou nekonečné, hrozí "kolaps modelu" a AI by se měla začít učit a trénovat na vlastních textech. Nejbohatší muž na světě Elon Musk prohlásil, že systémy AI čelí nedostatku dat a proto je přechod na syntetická data nevyhnutelný. Podle vizionáře a majitele Tesly, SpaceX nebo startupu xAI došly téměř všechny dostupné lidsky vytvořené informace na internetu, které slouží AI jako zdrojová data k vlastnímu zdokonalování se. „AI společnosti budou muset přejít na syntetická data,“ uvedl Musk podle magazínu FirstPost. Tento krok vyvolává obavy z kvality a důvěryhodnosti modelů AI, jelikož nemusí být stoprocentně pravdivé a mohou trpět "halucinacemi".
AI modely, jako je například ChatGPT od OpenAI, spoléhají na obrovské množství dat z internetu, aby se učily a zdokonalovaly. Tato data umožňují modelům analyzovat vzorce a předpovídat výsledky, například další slovo ve větě. Podle Muska je však tato zásoba vyčerpána. „Syntetická data, která generuje samotná AI a dále je optimalizuje pomocí procesu sebehodnocení a učení, představují hlavní alternativu,“ poznamenal Musk.
„Souhrn lidského vědění byl v tréninku AI vyčerpán. To se stalo v podstatě minulý rok,“ řekl Musk v rozhovoru na síti X. AI modely, jako je ChatGPT, se učí z obrovských objemů dat z internetu, která analyzují. Tento proces umožňuje vytváření stále přesnějších modelů. „Jediným způsobem, jak tento nedostatek překonat, je použití syntetických dat, kde AI napíše esej nebo vytvoří tezi, kterou si sama ohodnotí a následně se z ní učí,“ poznamenal Musk podle britského deníku The Guardian.
Tento přístup již není novinkou. Syntetická data již využívají velcí hráči jako Meta, Google nebo OpenAI. Tato metoda umožňuje firmám dále trénovat své modely i bez přístupu k dalšímu lidskému obsahu. Nicméně Musk upozornil na problém tzv. „halucinace AI“, což je termín pro nesmyslné či nepřesné výstupy AI, kdy modely generují nesmyslný nebo nepřesný obsah. „Rozlišení mezi reálnými a generovanými informacemi bude obtížné. Používání umělého obsahu je náročné, protože jak poznáte, zda odpověď nebyla pouze halucinací?“ upozornil.
Tento problém zmiňuje i Andrew Duncan z Alan Turing Institute, který varuje před „kolapsem modelu.“ Pokud AI systémy budou stále více trénovány na svých vlastních výstupech, hrozí pokles kvality, nárůst zaujatosti a ztráta kreativity.
ECHO PORADA: Komická sebechvála vlády, hazardní hra s rozpočtem a Okamura na cestě k stíhání
Nedostatek kvalitních tréninkových dat také prohlubuje právní spory o autorská práva. OpenAI již přiznalo, že nástroje jako ChatGPT by bez přístupu k autorsky chráněnému obsahu nemohly existovat. To vyvolalo debaty o kompenzacích pro tvůrce obsahu, jejichž díla byla použita k výuce AI. Navíc rostoucí množství AI generovaného obsahu na internetu zvyšuje riziko, že se budoucí tréninkové sady naplní syntetickým materiálem, což by mohlo komplikovat celý vývojový cyklus. Mohl by se tak vytvořit začarovaný kruh zhoršující celkovou kvalitu modelů. „Musíme najít rovnováhu mezi inovací a udržováním kvality, abychom zabránili degradaci schopností AI,“ uzavřel Musk.