За да открият ценното в грамите, журналистите на AP дават рейтинг за всяка дума.
Накратко това е число, което определя съотношението между споменаванията на думата във всички документи и употребата й в един документ.
След това репортерите сравняват документи, които имат близки рейтинги, и ги визуализират, за да открият връзки. Така те бързо си създават представа за събитията в Ирак например според това колко пъти се среща ключовата дума "убийство" например.
В опит да намалят времето, в което анализират документите, от AP използват алгоритъм, разработен от Стивън Инграм и Тамара Мунцнер от университета на Британска Колумбия. Чрез него, теобработват стотици хиляди документи за минути.
Техниката има много приложения. Екипът на Джонатан Стрей може да раздели всички документи по признаци. В случая файловете се сортират по трите ключови думи, които се повтарят най-често в тях. Например - "със завързани очи", "крака, ръце" и "отвлечен". След това се визуализират връзките между различните категории.
Те се базират на теми от речника на военните като:
- криминално действие (44.61%)
- вражеско действие (29.47%)
- опасност от взрив (16.72%)
- приятелско действие (6.06%)
- доклад за заплаха (1.18%)
- други (1.11%)
След това изследователите задълбават във всяка категория и търсят ключовите думи, които се повтарят най-често в нея. За криминално действие това са: "със завързани очи", "със завързани ръце", "труп" и "изстрел".
Едно от интересните открития са няколко десетки документи, съдържащи "автомобил-цистерна". От AP сверяват статиите на своите журналисти в същия период, от който датират грамите, и откриват едва четири-пет, съдържащи същата ключова дума. Т.е медиите не са успели да обърнат внимание на всички атентати.
Желанието на Джонатан Стрей е да отвори достъпа до компютърния алгоритъм, така че повече разследващи журналисти да се възползват от методите на AP и така да вършат работата си по-ефективно.