Passa ai contenuti principali

Una bella notizia (ed un ringraziamento)

Segnalo dal sito del Machine Learning Lab una notizia che non solo mi rende orgoglioso da un punto di vista personale ma che rende merito al lavoro dei miei collaboratori Eric Medvet, Andrea De Lorenzo e Fabiano Tarlao. Desidero ringraziarli pubblicamente per la loro competenza, passione ed entusiasmo: aspetti che per me sono stati importantissimi anche a livello personale.

Un nostro lavoro sulla "costruzione automatica di espressioni regolari" è stato accettato per la pubblicazione su di una rivista molto prestigiosa: "TKDE remains a very competitive venue for publishing the best research results. Among the 552 articles submitted in the first 10 month of 2015, 17 were invited for minor revision (3%) and an additional 117 (21%) were invited for major revision". Needless to say, the remaining 418 submissions were rejected. Our paper was one of those 17 which were asked only a minor revision.

Una espressione regolare è, in parole poverissime, una stringa che descrive in modo molto conciso un insieme di stringhe che hanno lo stesso pattern sintattico. Ad esempio, questa  è una espressione regolare che descrive gli indirizzi email:

^\w+@[a-zA-Z_]+?\.[a-zA-Z]{2,3}$

Questa invece è una espressione regolare che descrive date nella forma "XX/XX/YYYY where XX can be 1 or 2 digits long and YYYY is always 4 digits long":

^\d{1,2}\/\d{1,2}\/\d{4}$

Le espressioni regolari sono utilizzate in moltissime applicazioni pratiche della programmazione. Per avere un'idea di quanto siano diffuse ed importanti, basti considerare che nel forum Stack Overflow le domande su questo tema sono tra le più frequenti: più di 140.000 (alla data di oggi).

Scrivere un'espressione regolare è molto complicato, come si può intuire. Nel corso degli anni ci sono stati molti tentativi per la costruzione automatica di espressioni regolari sulla base solo di esempi del comportamento desiderato. Nella pratica, questi tentativi riuscivano a funzionare in modo più o meno accettabile solo in casi estremamente semplici.

Noi siamo riusciti a realizzare un sistema in grado di:
  1. Costruire espressioni che hanno accuratezza paragonabile a quella di umani esperti;
  2. In un tempo paragonabile a quello richiesto da umani esperti;
  3. Su problemi di complessità realistica.
Un prototipo del sistema è accessibile online. L'utente inserisce un testo, annota le porzioni da estrarre ed il sistema costruisce automaticamente l'espressione regolare che estrae solo le porzioni annotate. L'utente non ha neanche necessità di conoscere la sintassi o il funzionamento delle espressioni regolari.

Il lavoro è il risultato di molto tempo, competenza e passione. Da più di due anni questa è stata l'attività di ricerca preponderante mia, di Eric, Andrea e Fabiano. Agli albori di questa attività hanno partecipato anche Enrico Sorio, Marco Mauri e Giorgio Davanzo. Quest'ultimo, in particolare, ha avuto il merito di suggerire l'idea iniziale (sulla quale, come mi accade spesso, ero molto scettico...).

Grazie a tutti.

Commenti

Popular Posts

"Ingegneria deve essere difficile"

Il ritaglio di giornale qui sotto ricorda uno degli eventi più non-trovo-un-aggettivo-appropriato del mio periodo di studente di Ingegneria a Pisa. Ricordo che una mattina iniziò a spargersi la voce "hanno murato la porta del dipartimento!".  Andammo subito a vedere ed arrivammo un pò prima dei giornalisti che scattarono questa foto. La porta era murata, intonacata, pitturata di bianco e sovrastata da una scritta "INGEGNERIA DEVE ESSERE DIFFICILE". Le "E" di "INGEGNERIA" erano scritte al contrario perché era una sorta di "marchio di fabbrica" della facoltà di Ingegneria di Pisa. L'aula più grande, quella in cui pressoché tutti gli studenti seguivano i corsi dei primi anni, aveva infatti alcuni bellissimi "affreschi scherzosi" che furono fatti nel corso delle proteste studentesche di qualche anno prima ed in cui la parola "Ingegneria" era appuntoi scritta in quel modo. Si era anche già sparsa la voce di cosa era ...

La PhD school più importante della mia vita

Mi è tornata in mente proprio in questi giorni che ho iniziato il corso di Cybersecurity , nel quale parlo più volte dei design principles proposti da Saltzer e Schroeder nel loro capolavoro del 1974 . Se potessi incontrare Mike Schroeder oggi gli esprimerei con grande entusiasmo la mia ammirazione per quel suo capolavoro, nonostante la mia veneranda età e nonostante non abbia più la passione per la tecnologia e la ricerca che avevo da giovane. La cosa curiosa è che Mike Schroeder l'ho incontrato proprio quando ero giovane ed entusiasta: era un docente di quella PhD school...solo che non sapevo nulla di cybersecurity e quindi non ero a conoscenza di quel suo capolavoro, nonostante lo avesse scritto quasi venti anni prima! Mea culpa, mea grandissima culpa. Lisboa 92 - An advanced course on distributed systems Sono stato studente di solo due PhD schools...il titolo di questo blog post è quindi un pò clickbait . Comunque, Lisboa 92 è stata davvero molto importante per me. Non tanto ...

Perché studiare Analisi Matematica???

Un mio caro amico mi ha scritto: ...sono con mia figlia che studia Analisi 1...A cosa serve, al giorno d'oggi, studiare Analisi (a parte sfoltire i ranghi degli aspiranti ingegneri)? Riporto la mia risposta di seguito, forse può "motivare" qualche altro studente. ... Per un ingegnere la matematica è fondamentale perché è un linguaggio ; ed è il linguaggio essenziale per trattare gli argomenti che dovrà affrontare come ingegnere; non sono importanti i contenuti specifici; è importante, anzi fondamentale, che riesca a capirli, ricostruirli etc. ad esempio, chi deve usare l'inglese, lo usa perché in un modo o nell'altro lo conosce; nessuno di noi ha usato esattamente le frasi o i dialoghi o le regole che ha incontrato negli esercizi di inglese o di tedesco; nella matematica è lo stesso; non sono importanti i limiti, le serie, i teoremi di cauchy o che so io; ma se uno non è in grado di capire quel linguaggio allora non sarà in grado di capire davvero quas...

Valutazioni della didattica

Da alcune settimane sono disponibili le valutazioni della didattica per lo scorso anno accademico, 2019-20. Il sito web è stato rinnovato radicalmente rispetto alla versione precedente. Secondo me, la società che lo gestisce è riuscita nell'impresa quasi impossibile di peggiorare il sito precedente. Chi ci capisce qualcosa nel nuovo sito è davvero bravo. Le valutazioni dei miei corsi sono sintetizzate nel mio sito personale . Qui ci sono i commenti degli studenti (per la prima volta ho deciso di non rendere pubblico un commento su Reti di Calcolatori che ritengo possa essere frainteso; ho comunque esposto e discusso questo commento con gli studenti di quest'anno). La "classifica" non è facile da comprendere perché le differenze di valutazione tra gli insegnamenti spesso sono minime ed il numero degli studenti varia molto tra insegnamenti diversi (io ne ho molti). Dedico molto tempo e molti sforzi alla didattica. Mi fa veramente piacere che i miei sforzi siano general...

Come si formula una domanda

Molto spesso gli studenti che devono fare una domanda generano una quantità elevatissima di parole che cercano di trasportare 4 concetti molto diversi tra loro: Domanda mirata a chiarire il dubbio Motivo per il quale è sorto il dubbio (ad esempio, slide ambigua o esperienza personale) Descrizione di uno scenario di esempio per chiarire la domanda Informazioni sullo scenario di esempio che sono del tutto inutili per la domanda L'effetto più frequente è che chi riceve la domanda non capisce o deve fare un grande sforzo per capire. Un effetto accessorio molto frequente è che chi formula la domanda non genera una "grande impressione" in chi la riceve. E' molto, molto, molto importante acquisire la capacità di distinguere questi concetti e di rifletterne la separazione in ciò che si dice o si scrive. Non è importante solo per il corso di reti, è importante sempre. In qualsiasi attività professionale. E' parte essenziale della capacità di esprimersi in modo c...