Piccole prove di linguistica e dintorni

 

dunque, adesso c'e' un sistema che piglia dei testi, seleziona quelli ritenuti rilevanti, ne fa un riassunto dei concetti principali, li passa in pasto a un motore di TTS (loquendo)

l'output di oggi è questo: Download 20110621 (mp3)

aldilà dell'esercizio tecnologico di raffinare e mettere in fila i vari passaggi, adesso ci facciamo venire qualche idea su come usarlo…

opinioni ?

If you like this post, please consider sharing it.

11 thoughts on “Piccole prove di linguistica e dintorni”

  1. Sembra di sentire un telegiornale…:)
    Dico che sarebbe interessante conoscere la fonte iniziale per capire quanto sia accurata il riassunto.
    Bel lavoro, tienici informati!!

  2. Francesco Pasqualini

    idea: podcast automatico di aggregatore di news.
    Potrebbe esserci un podcast ogni tot ore oppure un aggiornamento quando si aggiungono notizie rilevanti.
    Una sorta di web giornale radio.
    Potrebbe essere utile da ascoltare mentre si guida l’auto o si fa qualcosa che impedisce di leggere(cucinare, correre, passeggiare ecc.).
    Quando si ha voglia di sentire un radiogiornale… questo sarebbe sempre disponibile e aggiornato.

  3. I commenti che ti sono arrivati restano colpiti dall’mp3, cosa ben nota e che evito accuratamente dai miei siti perche’ le persone vogliono ascoltare la voce umana con le sue sfumature, non letture automatiche.
    Ma non e’ questo il centro.
    Il centro e’ un altro: la sintesi automatica.
    Nel mondo del diritto escludo le sintesi automatiche, un aspetto marginale puo’ essere invece il nocciolo del discorso.
    Quindi prima cosa definire l’ambito; secondo i risultati (commercialmente interessanti) che si vogliono raggiungere.
    Io personalmente ho un sistema interno di tagging anonimo piu’ raffinato. Chiamala semantica, quello che vuoi, ma mi dice i temi piu’ interessati.
    Io direi di partire dai clienti che sai potrebbero investire in una simile tecnologia che offre sintesi, e da li’ analizzare i loro bisogni e sviluppare l’applicazione.
    Senza dimenticare che una analisi solo interna del testo resta povera, va integrata con le fonti social, per migliorarne la comprensione.
    🙂
    v.

  4. @valentino: è che la sintesi (non vocale ma l’estrazoine delle frasi salienti) è una cosa che google fa già da tempo sia nelle serp che nelle news e quindi “stupisce meno” perchè il mondo è già stato stupito. Anche la sintesi vocale è una cosa che c’è da tempo (e sull’inglese è molto migliore che sull’italiano) e non stupisce. Quello che stupisce è la “banale” sinergia tra le due per riassumere e spiegare. Stupirebbe ancora di più se la sorgente non fosse un insieme di testi ma un insieme di video e registrazioni audio (aggiungendo un riconoscimento vocale in ingresso, cosa come sappiamo già esistente).
    Quindi metto un PC ad ascoltare i pareri di 100 persone che parlano e lui mi fa un riassunto delle cose più importanti: sarebbe utile nelle assemblee condominiali 🙂
    Comunque lo scoglio principale è far sì che l’accuratezza delle fasi sia la maggiore possibile, perchè l’errore può essere imperdonabile.

  5. attenzione che sono cose simili ma non identiche.
    estrarre delle parole rispetto ad un target é diverso rispettoa fare un riassunto. (capire cosa è rilevante nel giorno si fa da una decina di anni e più)
    il riconoscimento del parlato Voice Independent é possibile solo per brevi testi o su dominii limitati e con alto tasso di errore.
    per il solo wordspotting (che stiamo provando) ci vuole più di unora di calcolo per ora di audio…

  6. Mi ricorda un racconto di fantascienza che parlava di un sistema simile per estrarre la parte rilevante dai discorsi degli ambasciatori, ma non sempre c’era qualcosa in output…
    Comunque come ambito di applicazione mi vengono in mente solo sistemi “tecnici” di diagnosi, elaborazione allarmi, elaborazione notizie di mercato, ricerca rumors e false notizie, ricerca di keywords per pubblicità e politicanti, analisi delle pubblicazioni scientifiche e dei brevetti (“pro” e “contro”), ricerca bandi di finanziamento, plagio e falsi, ecc.
    Ma forse perché non credo che i significati che mi interessano davvero possano essere estratti in automatico dato che spesso non sono neppure nel testo ma solo nel contesto o ricavabili da correlazioni non banali.
    Es. prendiamo le notizie dell’esempio. Sarebbe interessante capire il valore dei rating oggi dopo i clamorosi errori passati, se le lagnanze dei governi stanno iniziando a stringere il cerchio oppure se sono solo periodiche lamentele dei “cattivi”, se Islanda e indignados stanno tracciando il futuro che a breve sarà mainstream oppure se nulla cambia e un rating è ancora un vedetto di vita o morte senza appello possibile, se l’agenzia cinese inzia a pesare, ecc. ecc. Ma questo è “dentro” la notiziola? Eppure c’è chi fa esattamente questi ragionamenti a partire dalle notiziole, pesandole e correlandole, ma… a manina.

  7. Giornale Radio personalizzato on-demand via web (anche in mobilità).
    PRO: bello tecnologicamente e anche praticamente.
    CONTRO: alla fine si ascoltano solo le notizie che ti fanno comodo

  8. (disclaimer: lavoro in un settore contiguo)
    l’estrazione puo’ essere fatta sull’analisi dell’interesse della persona e non sull’espressione specifica del medesimo interesse
    es.: non clicko da qualche parte per dire che mi interesso di tennis ma l’analisi del mio comportamento in rete evidenzia che mi interesso di tennis, quindi l’estrattore aggrega news di tennis e il tts esegue
    ma per come mi comporto in rete influenzo e sono influenzato da amici e parenti, quindi l’aggregatore ne tiene conto e il tts esegue
    (e ripeto il disclaimer di cui sopra: lavoro in un settore contiguo)

Leave a Comment

Your email address will not be published. Required fields are marked *