mercoledì 14 marzo 2012

Onore alla ciurma

Ieri sera abbiamo ricevuto la notifica di accettazione di un nostro lavoro su Genetic Programming ad un importante congresso scientifico internazionale (Automatic Generation of Regular Expressions from Examples with Genetic Programming, ACM Genetic and Evolutionary Computation Conference 2012).
E' un risultato che mi rende "orgoglioso" per motivi che mi sembra opportuno rendere pubblici.

  1. Il lavoro è il risultato di TUTTI i componenti del laboratorio: Andrea, Enrico, Eric, Giorgio, Marco (ordine alfabetico). E' la prima volta che mi succede. Ognuno ha contribuito in base alle proprie competenze specifiche. Credo che la mancanza anche di uno solo dei componenti non ci avrebbe permesso di raggiungere questo risultato (i contributi non sono stati quantitativamente uniformi, ma ciò è irrilevante da questo punto di vista).
  2. L'idea iniziale non è venuta da me. Per molto tempo, inoltre, sono stato molto scettico sulla rilevanza del problema e sulla possibilità di ottenere soluzioni praticamente applicabili e scientificamente rilevanti. Non è la prima volta che mi succede: era già accaduto un paio di volte (se non vado errato), ma sempre per congressi di livello meno elevato di questo.
Sono quindi molto soddisfatto.
Per chi fosse interessato, questo è l'abstract:

We propose a system based on genetic programming (GP) for the automatic generation of regular expressions. The user describes the desired task by providing a set of labeled examples, in the form of text lines. The system uses these examples for driving the evolutionary search for a regular expression suitable for the specified task. The result may be used with common engines such as those that are part of Java, PHP, Perl and so on. Usage of the system requires neither familiarity with GP nor with regular expressions syntax. In our GP implementation each individual represents a syntactically correct regular expression and the fitness consists of a linear combination of two objectives to be minimized: the edit distance between each detected string and the corresponding examples, the size of the individual.  We performed an extensive experimental evaluation on 10 different extraction tasks applied to real-world datasets. We obtained very good results in terms of precision and recall, even in comparison to earlier state-of-the-art proposals.



e questa è una tabella con le regular expressions generate per vari problemi (generate con Genetic Programming, cioè in modo completamente automatico a partire da molte regular expressions generate in modo del tutto casuale).



Posta un commento