Полуавтоматичен подход за откриване на видни политически личности в изследователски данни: алтернативни подходи


Публикувано сряда 22 януари 2025 17:01

algorithm.jpg

Полуавтоматичен подход за откриване на видни политически личности в изследователски данни: алтернативни подходи

В по-ранна публикация технологичният партньор на БРОД – Онтотекст – разказа за първоначалните експерименти с алгоритъм за машинно обучение за извличане на видни политически личности (ВПЛ) от изследователски данни. Екипът на Онтотекст приложи специфично модифициран алгоритъм за многоезично свързване на именувани обекти, който включва метода IXA[1] за откриване на позицията на обектите в текст и метода mGENRE[2] за разрешаване на многозначността на обектите (наричан по-долу IXA_mGENRE). Въпреки че този алгоритъм показа сравнително добра ефективност върху малки по обем примерни данни (около 70% F1 стойност), обработката чрез mGENRE е много бавна, което може да го направи неподходящ за анотиране на голямо количество данни. Поради това беше проведен втори кръг от експерименти, за да се оцени как IXA_mGENRE ще се представи спрямо два други алгоритъма. Двата алтернативни подхода включваха:

  • BELA[3] (плюс последваща класификация за лица като тази, която бе приложена в допълнение към IXA_mGENRE) – BELA е първата многоезична система за свързване на именувани обекти “от край до край”. Тя е много бърза благодарение на това, че е от моделите, които четат веднъж входящите данни. Моделът обаче не връща категориите на извлечените обекти, поради което е необходимо да се приложи допълнителен класификационен метод.
  • MultiNERD[4] + mGENRE (наричан по-долу MultiNERD_mGENRE) – MultiNERD е многоезичен и многожанров набор от данни за разпознаване на разнообразни категории от обекти в текст и за разрешаване на многозначност. Неговият корпус се състои от статии в Уикипедия и Уикинюз, написани на 10 езика (китайски, нидерландски, английски, френски, немски, италиански, руски, португалски, полски и испански). Споменаванията на обектите са свързани с три различни бази от знания (Уикиданни, Уикипедия и BabelNet[5]). MiltiNERD съдържа споменавания за 15 специфични категории обекти, една от които е “човек”. Наличен е свободно достъпен многоезичен модел на разпознаване на именувани обекти, обучен върху MultiNERD, който екипът на Онтотекст използва като алтернатива на метода IXA и по този начин формира алгоритъма MultiNERD_mGENRE. Въпреки че въпросният модел на MultiNERD не е специално обучен за български и румънски език, той връща резултати за тези езици, така че може да бъде подходящ за извличане на ВПЛ. Трябва да се отбележи, че за разлика от другите два метода, този алгоритъм не изисква последваща класификация на лица, тъй като моделът вече открива категорията “човек”.

За втория кръг от експерименти екипът на Онтотекст използва подмножество от данни, предоставени от ЦИД и SNSPA, по-конкретно първите 20,000 статии в наборите от данни. Също тaка този път наборите от данни не бяха примерни, а съдържаха данни, събрани за анализа на ключовите изследователски теми на БРОД за членството в Шенген, украинската военна помощ и влизането в еврозоната. Таблиците по-долу представят няколко примера, чрез които да се придобие представа за това как анотациите за един и същ документ се различават при трите алгоритъма.

1737558153404-304.png

Сравнение на анотациите от алгоритмите за “човек”, “несвързан”: пример на български език

1737558153410-218.png

Сравнение на анотациите от алгоритмите за “човек”, “несвързан”: пример на румънски език

Обемът на обработените данни беше значително по-голям от обема на данните, обработени при първата итерация от експерименти. Поради тази причина не беше възможно да се извърши изчерпателна ръчна оценка на резултатите. Вместо това бяха изчислени някои статистически данни за резултатите и беше извършен само частичен ръчен анализ. Въз основа на този анализ изследователският екип на Онтотекст стигна до следните заключения:

  • Повечето обекти, категоризирани като “човек” от MultiNERD, наистина са лица. Моделът допуска грешки, но техният процент изглежда е много по-малък от грешките на IXA_mGENRE. 
  • Повечето от “свързани”-те хора са правилно свързани. В някои случаи “несвързани”-те обекти имат съответстващи записи в Уикиданни.
  • MultiNERD връща най-голям брой “несвързани” хора. Това е важно за извличането на ВПЛ, тъй като се предполага, че в някои случаи те не са обхванати в съществуваща обща база от знания. Важно е обаче да се отбележи, че и трите алгоритъма връщат голям брой “несвързани” хора, за които съществува съответстващ запис в Уикиданни. В този контекст е спорно дали MultiNERD връща най-голям брой ВПЛ, за които не съществува запис в база от знания. BELA е единственият модел от изследваните, който е обучен специално за извличане на обекти от Уикиданни. В другите алгоритми частта от системата, която отговаря за извличането на позициите на обектите, IXA и MultiNERD, не са обучени специално за Уикиданни. Интуитивно очакването е, че тези два модела ще върнат по-голям брой ВПЛ, които не присъстват в Уикиданни.
  • Сравнявайки алгоритмите BELA и IXA_mGENRE, изглежда, че IXA_mGENRE извлича значително по-голям брой обекти от BELA. Въпреки това процентът на “свързани”-те обекти е много по-нисък. Ръчният анализ на резултатите установи, че в сравнение с BELA, IXA_mGENRE внася повече шум и по-често извлича части от текста, които не са именувани обекти.

Като имаме предвид тези експериментални резултати, можем да обобщим предимствата и недостатъците на всеки от трите алгоритъма:

IXA_mGENRE

  • Дава резултати със задоволително качество.
  • mGENRE е много бавен, не е подходящ за анотиране на голямо количество данни, тъй като отнема много време.
  • Класификацията “човек”/“не човек” е бавна, така че може да бъде проблемна при обработката на голямо количество данни.

BELA

  • BELA е много бърз, подходящ за обработка на голямо количество данни.
  • Дава резултати с добро качество.
  • Класификацията “човек”/“не човек” е бавна, така че може да бъде проблемна при обработката на голямо количество данни.

MultiNERD_mGENRE

  • MultiNERD е по-бавен от BELA, но генерира резултати за разумно време и може да се използва за обработка на голямо количество данни.
  • MultiNERD връща категории и може да бъде от полза за извличане на други типове обекти, не само за хора.
  • В случая с извличането на ВПЛ към mGENRE се подават само обекти от категория “човек”. Това прави целия процес по-бърз, тъй като mGENRE трябва да обработи много по-малко данни, отколкото при комбинацията IXA_mGENRE.

В обобщение, въз основа на резултатите от експериментите и последвалия анализ, не може да се отсъди категорично кой от трите алгоритъма е най-добър за извличане на видни политически личности. Все пак алгоритмите MultiNERD_mGENRE и BELA изглеждат по-подходящи за задачата, отколкото подходът IXA_mGENRE, който е бавен и внася по-голям процент шум. При необходимост тези два алгоритъма могат да бъдат използвани да подпомогнат партньорите по БРОД в техния анализ на данни.


[1] XA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named Entity Recognition Using Knowledge Bases - ACL Anthology

[2] https://arxiv.org/abs/2103.12528

[3] GitHub - facebookresearch/BELA: Bi-encoder entity linking architecture

[4] GitHub - Babelscape/multinerd: Repository for the paper "MultiNERD: A Multilingual, Multi-Genre and Fine-Grained Dataset for Named Entity Recognition (and Disambiguation)" (NAACL 2022).

[5] https://babelnet.org/

BROD

Последвайте ни