CroMo je konačni automat (finite state machine - FSM) za parsiranje i anotaciju hrvatske morfologije. Segmentira riječi u morfeme, generira obilježje za svaki morfem, kao i leme za leksički korjen i puni leksički oblik u jednome koraku.

Kod je pisan u C++, C-u i Python-u.

C++/C kod je jako optimiran što se tiče memorije, brzine i ciklusa programiranja i testiranja.
  • Iznimno je eficijentan i brz: od prilike 30.000 pojavnica analizira se u jednoj (1) sekundi na običnom računalu sa npr. Intel Core2Duo 2 GHz jezgrom.
  • Eficijentan je sa memorijom: binarni program je manji od 5 MB, ne zauzima puno više u dinamičnoj memoriji.
  • Neovisan je o operativnom sustavu: binarni program se može dobiti za poznate Unix ili Linux distribucije, Mac OS X 10.5 (Leopard), i razne verzije Microsoft Windows-a.

Za različite scenarije možemo isporučiti:
  • monolitičku binarnu verziju tj. jedan kompaktni konačni automat kao program
  • balanciranu distribuiranu verziju (na osnovi OpenMP biblioteke) kao program
  • server-verziju koja eliminira lodiranje i instanciiranje binarnog programa u memoriji, i s kojom vaš sustav komunicira preko TCP/IP (ili WebService) protokola

Kod i sustav za programiranje nisu ovisni o tipu jezika, tj. nisu vezani za hrvatski, niti samo za jedan jezik.

Leksička osnova CroMo-a se može proširiti, tj. adaptacija na dijakrone i sinkrone, kao i dijalektalne varijante je moguća, isto tako unos stranih leksičkih varijanata, kao i kompletne strane leksičke građe. Proširenje leksičke baze skoro da nema utjecaja na brzinu procesiranja, dok kompresija u binarni oblik minimira potrebe za persistentnom i dinamičnom memorijom ako se radi o samo jednom jeziku.

Ako želite testirati sustav, kontaktirajte nas i objasnite vaš specifični scenarij i vaše potrebe, i javit ćemo vam se sa prijedlogom za licenziranje i mogući scenarij za testiranje.


(C) 2008-2009 Institut za hrvatski jezik i jezikoslovlje i Damir Ćavar (Odjel za lingvistiku, Sveučilište u Zadru)