O abordare semi-automatizată pentru identificarea persoanelor expuse politic în datele de cercetare: experimente inițiale

Modificat de Admin la 2026/05/27 16:20

Pipeline.jpg

Analiza cuprinzătoare a datelor textuale pentru a gestiona o sarcină de cercetare poate avea multiple beneficii din extragerea cunoștințelor despre persoanele și organizațiile menționate. Acest lucru este valabil în special pentru studiile din domeniul dezinformării, unde datele exacte privind actorii proeminenți putând spune multe despre conținutul narațiunilor înșelătoare.

Căutând profunzime și excelență în activitatea lor, partenerii de cercetare BROD CSD (Bulgaria) și SNSPA (România) au căutat o modalitate de a automatiza cel puțin parțial sarcina de extragere a entităților numite din datele colectate și, de asemenea, de a merge mai departe, prin conectarea acestora la un set de date extern cu informații despre persoanele expuse politic (PEP). Acest nivel suplimentar de analiză ar permite studierea mai bună a conexiunilor și influenței acestora asupra proceselor sociale.

Datorită experienței sale vaste în domeniul NLP, partenerul tehnic al BROD, Ontotext (ONTO), a contribuit la găsirea unei soluții. Folosindu-se de un algoritm pentru gestionarea entităților multilingve de ultimă generație (IXA[1]+ mGENRE[2]) care leagă entitățile descoperite de identificatorii Wikidata, echipa ONTO a efectuat o rundă inițială de experimente pe date dintr-un eșantion, furnizate de CSD. Există două considerente importante, care au dus la efectuarea unor ajustări specifice ale algoritmului inițial:

  1. Unele PEP sunt figuri noi sau nu atât de populare în domeniul public, prin urmare nu sunt prezentate în „universul Wiki”. În termenii algoritmului, acest lucru înseamnă că persoanele respective vor fi clasificate ca „nelegate” și vor fi eliminate, însă se vor pierde informații importante. Prin urmare, algoritmul a fost ajustat pentru a extrage entitățile „nelegate” în vederea unei analize ulterioare.
  2. Deoarece algoritmul utilizat nu are un modul de recunoaștere a tipului de entitate, a fost adăugat un model de clasificator personalizat pentru a stabili automat tipul „persoană” sau „non-persoană” pentru entitățile „nelegate”.

Să ilustrăm fluxul de prelucrare cu exemple din două seturi de date și în cele două limbi ale hub-ului (bulgară și română). Ambele seturi de date conțin postări pe Facebook, extrase prin intermediul CrowdTangle. Primul se referă la „operațiunea militară specială” din Ucraina și este doar în bulgară. Al doilea cuprinde postări publicate de ambasadele diferitelor țări UE, SUA și Rusia din regiunea Balcanilor. Datele de testare în limba română sunt preluate din acest al doilea set de date.

Figurile de mai jos exemplifică cele trei etape principale de prelucrare:

  1. Trecerea datelor prin algoritmul personalizat pentru a detecta entitățile „legate” și „nelegate”;
  2. Selectarea entităților „nelegate” pentru o analiză ulterioară;
  3. Clasificarea automată a entităților „nelegate” ca „persoană” sau „non-persoană”.

1734354029389-378.png

Pașii procesării algoritmului: exemple în bulgară

1734354029401-887.png

Pașii procesării algoritmului: exemple în română

Ultima coloană din tabelele de la pasul 3 („persoană”) prezintă faza finală, și anume evaluarea manuală a rezultatelor acestei prime runde de experimente, cu scopul de a evalua cât de bine algoritmul ajustat poate rezolva sarcina de extragere a PEP. Analiza a arătat că, pentru seturile de date prelucrate, numărul entităților „nelegate” este de aproximativ 30% din numărul total de entități extrase. Scorul F1, care este principalul parametru de performanță pentru modelele de învățare automată, este similar pentru seturile de date testate, fiind de aproximativ 70%.

În concluzie, rezultatele evaluării din aceste experimente inițiale au demonstrat că algoritmul personalizat de legare a entităților a echipei ONTO ar putea fi benefică pentru extragerea PEP din text nestructurat. Pe de altă parte, există încă loc de îmbunătățiri pentru a obține un scor F1 mai mare. Acest lucru i-a determinat pe cercetătorii ONTO să continue perfecționarea algoritmului, precum și să caute abordări alternative.


[1] XA/Cogcomp la SemEval-2023 Task 2: Context-enriched Multilingual Named Entity Recognition Using Knowledge Bases - ACL Anthology

[2] https://arxiv.org/abs/2103.12528

Information

Co -Funded by the European Union. Views and opinions expressed are however those of the author(s) only and do not necessarily reflect those of the European Union or DIGITAL-2021-TRUST-01. Neither the European Union nor the granting authority can be held responsible for them.