Simplificación de texto - Text simplification

La simplificación de texto es una operación utilizada en el procesamiento del lenguaje natural para modificar, mejorar, clasificar o procesar un corpus existente de texto legible por humanos de tal manera que la gramática y la estructura de la prosa se simplifican en gran medida, mientras que el significado y la información subyacentes permanecen. lo mismo. La simplificación del texto es un área importante de investigación, porque los lenguajes humanos naturales normalmente contienen vocabularios extensos y construcciones compuestas complejas que no se procesan fácilmente mediante la automatización . En términos de reducir la diversidad de idiomas, la compresión semántica se puede emplear para limitar y simplificar un conjunto de palabras utilizadas en textos dados.

Ejemplo

La simplificación del texto se ilustra con un ejemplo de Siddharthan (2006). La primera oración contiene dos cláusulas relativas y una frase verbal conjunta. Un sistema de simplificación de texto tiene como objetivo simplificar la primera oración a la segunda oración.

  • También contribuyó a la firmeza del cobre, señaló el analista, un informe de los agentes de compras de Chicago, que precede al informe completo de los agentes de compras que se publicará hoy y da una indicación de lo que podría contener el informe completo.
  • También contribuyó a la firmeza del cobre, señaló el analista, un informe de los agentes de compras de Chicago. El informe de Chicago precede al informe completo de los agentes de compras. El informe de Chicago da una indicación de lo que podría contener el informe completo. El informe completo se publicará hoy.

Un enfoque para la simplificación del texto es la simplificación léxica a través de la sustitución léxica , un proceso de dos pasos que consiste en identificar palabras complejas y reemplazarlas con sinónimos más simples. Un desafío clave aquí es identificar palabras complejas, que se realiza mediante un clasificador de aprendizaje automático entrenado en datos etiquetados. Una mejora con respecto a los métodos clásicos de aplicar etiquetas binarias a palabras tan simples o complejas es pedir a los etiquetadores que clasifiquen las palabras en orden de complejidad; esto da como resultado una mayor consistencia de las etiquetas resultantes.

Ver también

Referencias

  • Wei Xu, Chris Callison-Burch y Courtney Nápoles. " Problemas en la investigación actual de simplificación de textos ". En Transactions of the Association for Computational Linguistics (TACL), volumen 3, 2015, páginas 283–297.
  • Advaith Siddharthan. " Simplificación sintáctica y cohesión textual ". En Research on Language and Computation, Volumen 4, Número 1, junio de 2006, páginas 77–109, Springer Science, Países Bajos.
  • Siddhartha Jonnalagadda, Luis Tari, Joerg Hakenberg, Chitta Baral y Graciela González. Hacia una simplificación eficaz de las oraciones para el procesamiento automático de textos biomédicos. En Proc. del NAACL-HLT 2009, Boulder, EE.UU., junio. [1]

enlaces externos