Полуавтоматичен подход за откриване на видни политически личности в изследователски данни: първоначални експерименти


Публикувано понеделник 16 декември 2024 14:55

Pipeline.jpg

Извличането на знания за споменати лица и организации е от голяма полза при задълбочения анализ на текстови данни за решаването на изследователска задача. Това важи с особена сила за проучвания в областта на дезинформацията, където точните данни за значими участници могат да разкрият много за съдържанието на дезинформационните наративи.

Стремейки се към задълбоченост и високо качество в работата си, изследователските партньори на БРОД, Центърът за изследване на демокрацията – ЦИД (България) и SNSPA (Румъния), търсят решение частично да автоматизират задачата за извличане на именувани обекти от събраните данни, както и да ги свържат с външна база данни с информация за видни политически личности (ВПЛ). Това допълнително ниво на анализ би позволило да се проучат по-добре техните връзки и влияние върху обществените процеси.

Поради богатия си опит в областта на обработката на естествен език, техническият партньор на БРОД – Онтотекст – изрази готовност да допринесе за намирането на решение. Използвайки най-съвременен алгоритъм за многоезично свързване на именувани обекти (IXA[1] + mGENRE[2]), който свързва откритите обекти със съответните им идентификатори в Уикидата, екипът на Онтотекст проведе първоначални експерименти върху примерни данни, предоставени от ЦИД. Ще отбележим две важни съображения, които наложиха извършването на специфични промени в подхода:

  1. Някои ВПЛ са нови или не толкова популярни фигури в обществената сфера, поради което не са включени в “Уики вселената”. От гледна точка на модела това означава, че такива лица ще бъдат класифицирани като “несвързани” и няма да бъдат показани в крайния резултат, но това ще доведе до загуба на важна информация. Поради това алгоритъмът беше коригиран да извлича “несвързани” лица за по-нататъшен анализ.
  2. Тъй като използваната комбинация от модели не разполага с модул за разпознаване на типа на обекта, екипът на Онтотекст добави специфично настроен класификационен модел, който автоматично да задава тип “човек” или “не човек” на “несвързани”-те обекти.

Нека илюстрираме стъпките от процеса на обработка с примери от двата тестови набора от данни и на двата езика на БРОД (български и румънски). Данните съдържат публикации във Фейсбук, извлечени чрез CrowdTangle. Единият набор от данни е свързан с темата за “специалната военна операция” в Украйна и е само на български език. Вторият включва постове, публикувани от посолствата на различни държави от ЕС, на САЩ и на Русия в целия балкански регион. Тестовите данни на румънски език са взети от този втори набор от данни.

Изображенията по-долу илюстрират трите основни етапа на обработка:

  1. Обработка на данните със специално променения алгоритъм за откриване на “свързани” и “несвързани” обекти;
  2. Подбор на “несвързани” обекти за по-нататъшен анализ;
  3. Автоматично класифициране на “несвързани”-те като “човек” или “не човек”.

1734353845963-920.png

Стъпки в обработката от алгоритъма: пример на български език

1734353845978-457.png

Стъпки в обработката от алгоритъма: пример на румънски език

Последната колона в таблиците на стъпка 3 (“is person”) отбелязва финалния етап, а именно ръчната оценка на резултатите от тази първа серия от експерименти, чиято цел е да се определи доколко добре алгоритъмът може да реши задачата за извличане на ВПЛ. Анализът показа, че за обработените набори от данни броят на “несвързани”-те обекти е около 30% от общия брой извлечени обекти. Стойността F1, която е основният показател за ефективност на моделите за машинно обучение, е сходна за тестваните набори от данни – около 70%.

В заключение резултатите от оценката на тези първоначални експерименти показаха, че специализираният алгоритъм за свързване на обекти, разработен от екипа на Онтотекст, може да бъде полезен за извличане на видни политически личности от неструктуриран текст. От друга страна, все още има какво да се подобри, за да се постигне по-висока F1 стойност. Ето защо екипът на Онтотекст продължи да прецизира алгоритъма, както и да търси алтернативни модели.


[1] XA/Cogcomp la SemEval-2023 Task 2: Context-enriched Multilingual Named Entity Recognition Using Knowledge Bases - ACL Anthology

[2] https://arxiv.org/abs/2103.12528

BROD

Последвайте ни