RU Мы представляем систему классификации тем с открытым доменом, которая принимает заданную пользователем таксономию в режиме реального времени. Пользователи смогут классифицировать фрагмент текста по любым меткам-кандидатам, которые они захотят, и получать мгновенный ответ от нашего веб-интерфейса. Чтобы добиться такой гибкости, мы строим серверную модель с нулевым результатом. Обучаясь на новом наборе данных, созданном из Википедии, наш классификатор текста с поддержкой меток может эффективно использовать неявные знания в предварительно обученной языковой модели для обработки меток, которые он никогда раньше не видел. Мы оцениваем нашу модель по четырем наборам данных из разных доменов с разными наборами меток. Эксперименты показывают, что модель значительно улучшает существующие базовые показатели с нулевым результатом в сценариях с открытой доменной областью и конкурирует со слабо контролируемыми моделями, обученными на данных внутри домена.
Promt:
We introduce an open-domain topic classification system that accepts user-defined taxonomy in real time, Users will be able to classify a text snippet with respect to any candidate labels they want, and get instant response from our web interface, To obtain such flexibility, we build the backend model in a zero-shot way, By training on a new dataset constructed from Wikipedia, our label-aware text classifier can effectively utilize implicit knowledge in the pretrained language model to handle labels it has never seen before, We evaluate our model across four datasets from various domains with different label sets, Experiments show that the model significantly improves over existing zero-shot baselines in open-domain scenarios, and performs competitively with weakly-supervised models trained on in-domain data
Размер:
1024x1024
Модель:
ideogram.ai
Сайт:
Цена:
бесплатно