Команда российских учёных из нескольких научных центров представила новый метод, позволяющий отличать сгенерированные тексты от написанных человеком, сообщили Тренды и Технологии.

Как разъяснили в МФТИ, большинство популярных сегодня детекторов выдают свой вердикт, не объясняя, как именно было принято решение, что не позволяет понять, почему система ошиблась и как избежать этого в будущем. Российским учёным удалось решить эту проблему, разбив алгоритм на отдельные блоки, отвечающие за обработку разных аспектов текста. Учёные проследили за тем, как большая языковая модель Gemma-2-2B генерировала тексты, и выявили признаки, по которым их алгоритм распознавал творчество ИИ — например, многословность в финансовых текстах и перегруженные синтаксические конструкции в научных.
Новый детектор позволяет определять происхождение текста даже в тех случаях, когда пользователь намеренно скрывает его природу — например, добавляет лишние пробелы, артикли или нестандартные символы.
ИСТОЧНИК: Тренды и Технологии