Ringkasan Teks Otomatis – Lincoln, Pengantar Ringkasan Otomatis – Blog Data

Blog tentang data, kecerdasan buatan, dan proyek saya

Ringkasan otomatisnya adalah mengambil teks panjang, atau bahkan satu set teks, dan untuk secara otomatis menghasilkan teks yang jauh lebih pendek yang berisi sebagian besar informasi. Sederhana ? Tak sebanyak itu. Pertama, Anda harus menyetujui informasi apa yang sangat penting. Kemudian, kita harus dapat mengekstraknya dengan benar, mengatur ulang mereka, semuanya dalam teks tata bahasa dan tanpa intervensi manusia. Dan itu tanpa mengandalkan sejumlah besar varian ringkasan yang mungkin terjadi !

Ringkasan teks otomatis

Dengan ledakan pengumpulan dan penyimpanan tekstur, kebutuhan untuk menganalisis dan mengekstrak informasi yang relevan dari massa ini semakin banyak.

Selain itu, ledakan dalam model pembelajaran mendalam untuk pemrosesan bahasa alami otomatis (TALN) memfasilitasi penggunaan data tekstual dalam masalah operasional. Ringkasan teks otomatis, dengan cara yang sama seperti pertanyaan yang menjawab, analisis kesamaan, klasifikasi dokumen dan tugas lain yang terkait dengan taln adalah bagian dari masalah ini.

Dalam konteks inilah Inovasi Lab De Lincoln telah memutuskan untuk melakukan pekerjaan pada ringkasan teks otomatis. Karya -karya ini telah memungkinkan untuk membuat tolok ukur model ringkasan otomatis yang tersedia untuk bahasa tersebut Perancis, untuk menyebabkan model kami sendiri dan akhirnya memasukkannya ke dalam produksi.

�� Pelatihan model

Ringkasan Otomatis Dunia

Data

Sebelum kami dapat memulai pekerjaan kami, pertama -tama kami harus membangun database untuk mempelajari model ringkasan otomatis. Kami telah memulihkan item pers dari beberapa situs berita Prancis. Basis ini berisi ~ 60k artikel dan terus diperbarui.

Canggih

Algoritma ringkasan otomatis dapat dipisahkan menjadi dua kategori: ringkasan ekstraktif dan ringkasan abstraktif. Dalam bingkai ekstraktif, Ringkasan dibangun dari kalimat yang diekstraksi dari teks sementara ringkasan abstraktif dihasilkan dari kalimat baru.

Model ringkasan otomatis cukup umum dalam bahasa Inggris, tetapi mereka jauh lebih sedikit dalam bahasa Prancis.

Metrik

Untuk evaluasi model kami menggunakan metrik berikut:

MERAH : Tidak diragukan lagi pengukuran yang paling sering dilaporkan dalam tugas ringkasan, pengganti yang berorientasi penarikan untuk evaluasi gisting (Lin, 2004) menghitung jumlah gram N yang serupa antara ringkasan yang dievaluasi dan ringkasan referensi manusia.

Meteor: Metrik untuk evaluasi terjemahan dengan pemesanan eksplisit (Banerjee dan Lavie, 2005) dirancang untuk evaluasi hasil terjemahan otomatis. Ini didasarkan pada rata -rata harmonik presisi dan penarikan kembali pada unigram, penarikan memiliki bobot lebih besar dari presisi. Meteor sering digunakan dalam publikasi ringkasan otomatis (lihat et al., 2017; Dong et al., 2019), selain merah.

Kebaruan: Telah diperhatikan bahwa beberapa model abstrak terlalu banyak beristirahat pada ekstraksi (See et al., 2017; Krysci ‘Nski et al.‘, 2018). Oleh karena itu, telah menjadi umum untuk mengukur persentase n-gram yang dihasilkan dalam ringkasan yang dihasilkan.

Sumber: Terjemahan dari kertas MLSUM [2].

Penyebaran model

Untuk pelatihan model, kami menggunakan layanan Cloud Azure ML yang menyediakan lingkungan lengkap untuk pelatihan, pemantauan, dan penyebaran model.

Model Ringkasan Otomatis

Kami lebih tepat menggunakan Python SDK yang memungkinkan Anda untuk mengelola seluruh lingkungan Azureml secara terprogram, dari peluncuran “pekerjaan” hingga penyebaran model.

Namun, kami merangkum model akhir kami dalam aplikasi Flask yang dikemas kemudian digunakan melalui pipa CI/CD pada kluster Kubernetes

Hasil

Pertama -tama, kami melakukan beberapa upaya, memimpin model pada artikel 10k, memvariasikan jumlah token yang diberikan pada awal model (512 atau 1024) dan arsitektur yang berbeda.

Pengamatan Pertama: Metrik Merah dan Meteor tampaknya tidak terlalu cocok untuk penilaian kinerja model kami. Oleh karena itu kami memilih untuk mendasarkan perbandingan kami hanya pada skor baru dan dipilih Arsitektur mendukung ringkasan yang lebih abstraktif.

Setelah mendorong pelatihan model kami pada item 700k, kami secara signifikan meningkatkan hasilnya dan memvalidasi versi pertama yang akan Anda temukan di bawah ini.

Poin perhatian

Di luar kinerja, percobaan ini memungkinkan kami untuk menyoroti beberapa orang batasan Ringkasan Otomatis:

Saat ini, ukuran teks dalam input dari model tipe Mengubah dibatasi oleh kapasitas dalam memori GPU. Biaya dalam memori menjadi kuadratik dengan ukuran teks sebagai input, ini menimbulkan masalah nyata untuk tugas -tugas ringkasan otomatis di mana teks yang akan dirangkum seringkali cukup lama.

Sangat sulit untuk menemukan metrik yang relevan untuk menilai tugas pembuatan teks.

Hati-hati berat ekstraktor : Kami juga mengalami beberapa masalah yang terkait dengan data dalam diri mereka sendiri. Masalah utamanya adalah bahwa artikel artikel itu sering kali menjadi parafrase atau bahkan duplikat dari kalimat pertama artikel tersebut. Ini memiliki konsekuensi mendorong model kami untuk lebih ekstraktif daripada abstraktif dengan hanya mengembalikan kalimat pertama artikel tersebut. Oleh karena itu perlu untuk melakukan pekerjaan kurasi dengan menghapus masalah artikel untuk menghindari bias semacam ini.

Blog tentang data, kecerdasan buatan, dan proyek saya.

Ringkasan otomatisnya adalah mengambil teks panjang, atau bahkan satu set teks, dan untuk secara otomatis menghasilkan teks yang jauh lebih pendek yang berisi sebagian besar informasi. Sederhana ? Tak sebanyak itu. Pertama, Anda harus menyetujui informasi apa yang sangat penting. Kemudian, kita harus dapat mengekstraknya dengan benar, mengatur ulang mereka, semuanya dalam teks tata bahasa dan tanpa intervensi manusia. Dan itu tanpa mengandalkan sejumlah besar varian ringkasan yang mungkin terjadi !

Saya dapat bekerja selama sekitar satu tahun dengan tema yang menarik ini tepat sebelum doktor saya, oleh karena itu posting ini merupakan kesempatan bagi saya untuk membenamkan diri dalam subjek ini dan untuk mengambil stok inovasi terbaru dalam domain.

Jadi mari kita ambil gambaran umum dari tema ini, dengan membuat dengan menggambarkan berbagai jenis ringkasan yang ada, sebelum memikirkan dua jenis sistem sedikit secara rinci: yang dari AI dan jaringan saraf, dan yang agak fokus pada ekstraksi optimal dari optimal informasi.

Berbagai jenis ringkasan

Ketika kita berbicara tentang ringkasan, kita sering memikirkan sampul belakang buku atau deskripsi naskah untuk sebuah film. Secara umum, mereka menghindari merusak akhir, ketika inilah tepatnya apa yang akan diminta oleh orang dengan alat ringkasan otomatis klasik: untuk memberi tahu intriknya, sehingga ringkasannya mungkin cukup untuk mengetahui hal -hal penting. Ini dia tentang Ringkasan Mono-Dokumen, Artinya kami hanya merangkum satu dokumen (film, buku, artikel, …).

Sebaliknya, kami bisa menginginkan a Ringkasan multi-dokumen, Bahwa kami bertemu lebih sering dalam konteks ulasan pers: kami ingin memiliki ringkasan informasi terpenting seperti yang dilaporkan oleh berbagai organisasi pers.

Setelah kami memutuskan tentang jenis data yang ingin kami ringkas, mono atau multi-dokumenter, kami memiliki pilihan antara dua pendekatan:ekstraktif, yang terdiri dari mengekstraksi sebagai informasi sebelum mengembalikannya untuk membuat ringkasan, dan pendekatannya generatif, yang terdiri dalam membuat kalimat baru, yang awalnya tidak muncul dalam dokumen, untuk memiliki ringkasan yang lebih cair dan lebih bebas.

Selain kriteria ini, ada berbagai gaya ringkasan, yang tidak akan kami dekati di sini: perbarui ringkasan yang terdiri dalam meringkas informasi yang muncul dalam dokumen baru dan yang tidak terdaftar sejauh ini, dirangkum diarahkan yang terdiri dalam mengadopsi sudut yang tepat diberikan oleh pengguna, ..

AI dan jaringan saraf merevolusi ringkasan otomatis

Sampai pertengahan tahun 2010 -an, sebagian besar ringkasan bersifat ekstraktif. Namun, keragaman besar sudah ada dalam algoritma ini yang dapat berkisar dari pemilihan dan ekstraksi seluruh kalimat hingga ekstraksi informasi yang tepat yang direkolasi kemudian dalam teks dengan lubang yang disiapkan sebelumnya yang disebut templat. Kedatangan pendekatan baru berdasarkan jaringan saraf telah sangat mengubah situasi. Algoritma ini jauh lebih efektif daripada yang sebelumnya untuk menghasilkan teks tata bahasa dan cairan, seperti apa yang dapat dilakukan dengan demo GPT ini.

Jaringan saraf, bagaimanapun, membutuhkan sejumlah besar data untuk dilatih dan relatif tidak berpenampilan. Mereka bekerja dengan sempurna untuk menghasilkan komentar yang kebenarannya tidak terlalu penting, tetapi sangat dapat menghasilkan informasi yang kontradiktif atau tidak benar yang bermasalah dalam konteks ringkasan artikel pers misalnya misalnya. Banyak artikel penelitian tertarik pada “halusinasi” jaringan saraf ini.

Contoh alat hibrida: Potara

Ringkasan otomatis adalah subjek penelitian pertama di mana saya tertarik, dan saya memiliki kesempatan untuk berkembang selama master saya sistem ringkasan hibrida dengan ekstraksi/generasi untuk pendekatan multi-dokumen, yaitu meringkas serangkaian dokumen yang berbicara dari subjek yang sama.

Idenya adalah memulai dari ekstraksi klasik, yaitu untuk mengidentifikasi kalimat yang paling penting dan mengumpulkannya untuk menghasilkan ringkasan. Masalah dengan pendekatan ini adalah bahwa kalimat terpenting sering kali dapat ditingkatkan lebih lanjut. Misalnya, dalam sebuah artikel yang berbicara tentang perpindahan presiden, frasa “Emmanuel Macron bertemu dengan rekannya di Amerika dan mendiskusikan ekonomi” dapat ditingkatkan dalam “Emmanuel Macron bertemu Joe Biden dan membahas ekonomi”. Wartawan dengan hati -hati menghindari latihan, kami sering berhadapan dengan fenomena semacam ini.

Untuk mengatasi cacat ini, kita dapat mengidentifikasi kalimat serupa yang ada dalam dokumen yang berbeda dan mencoba menggabungkannya untuk mendapatkan kalimat yang lebih baik. ANSI, dari dua kalimat berikut:

  • Emmanuel Macron bertemu dengan rekan Amerika di Washington dan berbicara tentang ekonomi panjang lebar.
  • Presiden Prancis bertemu Joe Biden dan membahas ekonomi.

Kami dapat membuat kalimat singkat dan informatif:

  • Emmanuel Macron bertemu Joe Biden di Washington dan membahas ekonomi.

Beberapa langkah diperlukan untuk mencapai hasil ini: menemukan kalimat yang sama, menemukan fusi terbaik, memeriksa bahwa fusi jauh lebih baik daripada kalimat asli. Mereka mengambil bagian dari banyak teknologi: Word2 dengan jaringan saraf untuk menemukan kalimat serupa, grafik co-ccurence untuk menggabungkannya, optimasi ILP untuk memilih merger terbaik.

Jika Anda ingin melihat lebih banyak, Potara adalah open-source, tetapi belum dipertahankan untuk sementara waktu. Proyek ini benar -benar berfungsi sebagai showcase ketika saya dirilis dan karenanya memiliki dokumentasi, tes, integrasi berkelanjutan, penyebaran di PYPI, ..

Apa ringkasan otomatis yang baik ?

Jika kriteria tertentu tampak jelas dan relatif sederhana untuk dinilai (gramatikalitas kalimat misalnya), yang lain jauh lebih kompleks. Memutuskan informasi apa yang paling penting dari suatu teks sudah menjadi tugas yang sangat subyektif dalam dirinya sendiri. Mengevaluasi fluiditas, pilihan yang tepat dari kata -kata yang digunakan, kembali ke pekerjaan penerbitan, dan jangan bicara tentang orientasi politik yang dapat diambil oleh ringkasan !

Model generatif baru berdasarkan jaringan saraf cenderung memperkenalkan penilaian atau kualifikasi yang merendahkan (atau ramah pengguna), efek yang dicari dalam hal menghasilkan kritikus film, tetapi jauh lebih sedikit ketika berbicara tentang program kandidat presiden presiden !

Oleh karena itu, ringkasan otomatis tetap menjadi subjek yang sangat aktif dalam penelitian, dan mungkin sejenak, terutama yang berkaitan dengan kemampuan untuk memandu hasil algoritma, justru terhadap perasaan tertentu, gaya tertentu, pewarnaan politik yang diberikan. Di industri, ia baru saja mulai memasuki eksekutif yang sangat spesifik (ringkasan pertemuan misalnya).

Presiden 2022: Untuk data Anda !

3 Contoh proyek data yang akan dilakukan untuk pemilihan presiden 2022.