Irbis-7B или как мы учили ЛЛМку казахскому языку

Печать: Шрифт: Абв Абв Абв
Гость 04 Июля 2024 в 08:57:48
Языковые модели, основанные на архитектуре трансформеров, такие как Llama, Mistral и прочие, показывают впечатляющие результаты на английском языке. Однако их эффективность на других языках, включая казахский, может страдать. Дообучение на отдельный домен, даже при наличии хорошего датасета, может не давать значительного прироста в качестве. И дело не столько в том, что базовая модель при обучении видела мало текста на казахском, сколько в неэффективной токенизации. Этот недостаток приводит к тому, что модели не могут в полной мере использовать свой потенциал на языках, отличных от английского.

Статья целиком тут https://habr.com/ru/articles/825574/
Добавить сообщение
Чтобы добавлять комментарии зарeгиcтрирyйтeсь