Как се разчитат грами?

Интернет
share

За да открият ценното в грамите, журналистите на AP дават рейтинг за всяка дума.

Накратко това е число, което определя съотношението между споменаванията на думата във всички документи и употребата й в един документ.

След това репортерите сравняват документи, които имат близки рейтинги, и ги визуализират, за да открият връзки. Така те бързо си създават представа за събитията в Ирак например според това колко пъти се среща ключовата дума "убийство" например.

В опит да намалят времето, в което анализират документите, от AP използват алгоритъм, разработен от Стивън Инграм и Тамара Мунцнер от университета на Британска Колумбия. Чрез него, теобработват стотици хиляди документи за минути.

Техниката има много приложения. Екипът на Джонатан Стрей може да раздели всички документи по признаци. В случая файловете се сортират по трите ключови думи, които се повтарят най-често в тях. Например - "със завързани очи", "крака, ръце" и "отвлечен". След това се визуализират връзките между различните категории.

Те се базират на теми от речника на военните като:

- криминално действие (44.61%)
- вражеско действие (29.47%)
- опасност от взрив (16.72%)
- приятелско действие (6.06%)
- доклад за заплаха (1.18%)
- други (1.11%)

След това изследователите задълбават във всяка категория и търсят ключовите думи, които се повтарят най-често в нея. За криминално действие това са: "със завързани очи", "със завързани ръце", "труп" и "изстрел".

Едно от интересните открития са няколко десетки документи, съдържащи "автомобил-цистерна". От AP сверяват статиите на своите журналисти в същия период, от който датират грамите, и откриват едва четири-пет, съдържащи същата ключова дума. Т.е медиите не са успели да обърнат внимание на всички атентати.

Желанието на Джонатан Стрей е да отвори достъпа до компютърния алгоритъм, така че повече разследващи журналисти да се възползват от методите на AP и така да вършат работата си по-ефективно.

Водещи новини

Още новини