Facebook aveva bisogno di un sistema di riconoscimento ottico dei caratteri in grado di elaborare regolarmente enormi volumi di contenuti, quindi ha dovuto fare affidamento sulla propria tecnologia. Secondo il social network, Rosetta estrae il testo da oltre un miliardo di immagini e video in un’ampia varietà di lingue ogni giorno in tempo reale.

In un nuovo post sul blog, la società ha spiegato come funziona Rosetta: inizia rilevando regioni rettangolari in immagini che potenzialmente contengono testo. Utilizza quindi una rete neurale convoluzionale per riconoscere e trascrivere ciò che è scritto in quella regione, anche parole non inglesi o alfabeti non latini, come l’arabo e l’hindi. Per addestrare il sistema, Facebook ha usato una miscela di immagini pubbliche con annotazioni umane e meccaniche.

Diversi team di Facebook e Instagram stanno già utilizzando Rosetta per visualizzare più contenuti e per controllare le loro piattaforme. La società intende continuare a far crescere il numero di lingue che può comprendere e renderla più efficiente nell’estrarre il testo dai frame video.

Parlando di lingue, Facebook ha anche aggiunto 24 nuove lingue ai suoi servizi di traduzione automatica, tra cui serbo, bielorusso, marathi, singalese, telugu, nepalese, kannada, urdu, punjabi, cambogiano, pashto, mongolo, zulu, xhosa e somalo. Facebook ammette che le traduzioni per quelle lingue sono in una fase iniziale, quindi avranno ancora molti errori. Prevede di continuare a migliorarli e ad introdurre più lingue in futuro.

fonte@engadget.com