Programy pro detekci umělé inteligence diskriminují nerodilé mluvčí angličtiny, ukazuje studie

Testy sedmi populárních detektorů textu s umělou inteligencí zjistily, že články napsané lidmi, pro které angličtina není mateřským jazykem, byly často chybně označeny jako vytvořené umělou inteligencí, což může mít závažný dopad na studenty, akademické pracovníky a uchazeče o zaměstnání.

S rozvojem ChatGPT, generativního programu umělé inteligence, který dokáže psát eseje, řešit problémy a vytvářet počítačový kód, mnoho učitelů nyní považuje detekci umělé inteligence za „kritické protiopatření, které má zabránit podvádění v 21. století“, tvrdí vědci, ale varují, že přesnost 99 %, kterou uvádějí některé detektory, je „přinejlepším zavádějící“.

Vědci pod vedením Jamese Zoua, docenta biomedicínské datové vědy na Stanfordově univerzitě, prověřili 91 anglických esejů napsaných nerodilými mluvčími sedmi populárními detektory GPT, aby zjistili, jak dobře si programy vedou.

Více než polovina esejí, které byly napsány pro všeobecně uznávanou zkoušku z angličtiny známou jako Test of English as a Foreign Language (TOEFL), byla označena jako eseje vytvořené umělou inteligencí, přičemž jeden program označil 98 % esejí za eseje vytvořené umělou inteligencí. Když byly těmito programy prohnány eseje napsané rodilými anglicky mluvícími žáky osmých tříd v USA, stejné detektory AI označily více než 90 % esejí za vytvořené člověkem.

Vědci v časopise Patterns zjistili, že rozlišování je způsobeno způsobem, jakým detektory vyhodnocují, co je lidské a co vytvořené umělou inteligencí. Programy sledují takzvanou „perplexitu textu“, což je míra toho, jak je generativní jazykový model „překvapený“ nebo „zmatený“, když se snaží předpovědět další slovo ve větě. Pokud model dokáže snadno předpovědět další slovo, je perplexita textu hodnocena jako nízká, ale pokud se ukáže, že další slovo je obtížné předpovědět, je perplexita textu hodnocena jako vysoká.

Velké jazykové modely nebo LLM, jako je ChatGPT, jsou vycvičeny tak, aby vytvářely texty s nízkou perplexitou, ale to znamená, že pokud člověk při psaní používá mnoho běžných slov ve známém vzorci, hrozí, že jeho práce bude zaměněna za text vytvořený umělou inteligencí. Podle výzkumníků je toto riziko větší u nerodilých mluvčích angličtiny, protože je u nich větší pravděpodobnost, že si osvojí jednodušší volbu slov.

Chcete využít této příležitosti?

Poté, co vědci upozornili na zkreslení zabudované v programech pro detekci umělé inteligence, vrátili se k programu ChatGPT a požádali ho, aby eseje TOEFL přepsal pomocí sofistikovanějšího jazyka. Když byly tyto upravené eseje znovu prohnány detektory umělé inteligence, byly všechny označeny jako napsané lidmi. „Detektory GPT mohou paradoxně donutit autory, kteří nejsou rodilými mluvčími, aby více používali GPT, aby se vyhnuli detekci,“ uvedli.

„Důsledky detektorů GPT pro nerodilé pisatele jsou závažné a je třeba je promyslet, aby nedocházelo k diskriminaci,“ upozornili autoři v časopise. Detektory umělé inteligence by mohly falešně označit žádosti o studium a zaměstnání jako vytvořené GPT a marginalizovat nerodilé mluvčí angličtiny na internetu, protože vyhledávače, jako je Google, snižují hodnocení obsahu, který je vyhodnocen jako vytvořený umělou inteligencí, varují. „Ve školství, které je pravděpodobně nejvýznamnějším trhem pro detektory GPT, nesou nerodilí studenti větší riziko falešného obvinění z podvádění, což může mít negativní dopad na akademickou kariéru a psychickou pohodu studenta,“ dodali vědci.

Jahna Otterbacherová z kyperského Centra pro algoritmickou transparentnost na Open University of Cyprus v doprovodném článku uvedla: „ChatGPT neustále sbírá data od veřejnosti a učí se, jak se zavděčit svým uživatelům; nakonec se naučí přechytračit jakýkoli detektor.“

Počítačové programy, které se používají k detekci esejů, žádostí o zaměstnání a dalších prací generovaných umělou inteligencí, mohou podle vědců diskriminovat osoby, pro které angličtina není rodným jazykem. Testy sedmi populárních detektorů textu s umělou inteligencí zjistily, že články napsané lidmi, pro které angličtina není mateřským jazykem, byly často chybně označeny jako vytvořené umělou inteligencí, což může mít závažný dopad na studenty, akademické pracovníky a uchazeče o zaměstnání. S rozvojem ChatGPT, generativního programu umělé inteligence, který dokáže psát eseje, řešit problémy a vytvářet počítačový kód, mnoho učitelů nyní považuje detekci umělé inteligence za "kritické protiopatření, které má zabránit podvádění v 21. století", tvrdí vědci, ale varují, že přesnost 99 %, kterou uvádějí některé detektory, je "přinejlepším zavádějící". Vědci pod vedením Jamese Zoua, docenta biomedicínské datové vědy na Stanfordově univerzitě, prověřili 91 anglických esejů napsaných nerodilými mluvčími sedmi populárními detektory GPT, aby zjistili, jak dobře si programy vedou. Zdroj: Burzovnísvět.cz Více než polovina esejí, které byly napsány pro všeobecně uznávanou zkoušku z angličtiny známou jako Test of English as a Foreign Language (TOEFL), byla označena jako eseje vytvořené umělou inteligencí, přičemž jeden program označil 98 % esejí za eseje vytvořené umělou inteligencí. Když byly těmito programy prohnány eseje napsané rodilými anglicky mluvícími žáky osmých tříd v USA, stejné detektory AI označily více než 90 % esejí za vytvořené člověkem. Vědci v časopise Patterns zjistili, že rozlišování je způsobeno způsobem, jakým detektory vyhodnocují, co je lidské a co vytvořené umělou inteligencí. Programy sledují takzvanou "perplexitu textu", což je míra toho, jak je generativní jazykový model "překvapený" nebo "zmatený", když se snaží předpovědět další slovo ve větě. Pokud model dokáže snadno předpovědět další slovo, je perplexita textu hodnocena jako nízká, ale pokud se ukáže, že další slovo je obtížné předpovědět, je perplexita textu hodnocena jako vysoká. Velké jazykové modely nebo LLM, jako je ChatGPT, jsou vycvičeny tak, aby vytvářely texty s nízkou perplexitou, ale to znamená, že pokud člověk při psaní používá mnoho běžných slov ve známém vzorci, hrozí, že jeho práce bude zaměněna za text vytvořený umělou inteligencí. Podle výzkumníků je toto riziko větší u nerodilých mluvčích angličtiny, protože je u nich větší pravděpodobnost, že si osvojí jednodušší volbu slov. Poté, co vědci upozornili na zkreslení zabudované v programech pro detekci umělé inteligence, vrátili se k programu ChatGPT a požádali ho, aby eseje TOEFL přepsal pomocí sofistikovanějšího jazyka. Když byly tyto upravené eseje znovu prohnány detektory umělé inteligence, byly všechny označeny jako napsané lidmi. "Detektory GPT mohou paradoxně donutit autory, kteří nejsou rodilými mluvčími, aby více používali GPT, aby se vyhnuli detekci," uvedli. "Důsledky detektorů GPT pro nerodilé pisatele jsou závažné a je třeba je promyslet, aby nedocházelo k diskriminaci," upozornili autoři v časopise. Detektory umělé inteligence by mohly falešně označit žádosti o studium a zaměstnání jako vytvořené GPT a marginalizovat nerodilé mluvčí angličtiny na internetu, protože vyhledávače, jako je Google, snižují hodnocení obsahu, který je vyhodnocen jako vytvořený umělou inteligencí, varují. "Ve školství, které je pravděpodobně nejvýznamnějším trhem pro detektory GPT, nesou nerodilí studenti větší riziko falešného obvinění z podvádění, což může mít negativní dopad na akademickou kariéru a psychickou pohodu studenta," dodali vědci. Jahna Otterbacherová z kyperského Centra pro algoritmickou transparentnost na Open University of Cyprus v doprovodném článku uvedla: "ChatGPT neustále sbírá data od veřejnosti a učí se, jak se zavděčit svým uživatelům; nakonec se naučí přechytračit jakýkoli detektor."