Interfaz de usuario en lenguaje natural - Natural-language user interface

La interfaz de usuario de lenguaje natural ( LUI o NLUI ) es un tipo de interfaz humana de computadora donde los fenómenos lingüísticos como verbos, frases y cláusulas actúan como controles de IU para crear, seleccionar y modificar datos en aplicaciones de software.

En el diseño de interfaces , las interfaces de lenguaje natural son buscadas por su velocidad y facilidad de uso, pero la mayoría sufre los desafíos de comprender una amplia variedad de entradas ambiguas . Las interfaces de lenguaje natural son un área de estudio activa en el campo del procesamiento del lenguaje natural y la lingüística computacional . Una interfaz intuitiva en lenguaje natural general es uno de los objetivos activos de la Web Semántica .

Las interfaces de texto son "naturales" en diversos grados. Muchos lenguajes de programación formales (no naturales) incorporan modismos del lenguaje humano natural. Asimismo, un motor de búsqueda de palabras clave tradicional podría describirse como una interfaz de usuario de lenguaje natural "superficial".

Visión general

En el motor de búsqueda de lenguaje natural, en teoría, encontraría respuestas específicas a las preguntas de los usuarios (a diferencia de una búsqueda por palabra clave). Por ejemplo, cuando se enfrenta a una pregunta del tipo "¿qué estado de EE. UU. Tiene el impuesto sobre la renta más alto ?", Los motores de búsqueda convencionales ignoran la pregunta y, en su lugar, buscan las palabras clave "estado", "ingresos" e "impuestos". La búsqueda en lenguaje natural, por otro lado, intenta utilizar el procesamiento del lenguaje natural para comprender la naturaleza de la pregunta y luego buscar y devolver un subconjunto de la web que contiene la respuesta a la pregunta. Si funciona, los resultados tendrían mayor relevancia que los resultados de un motor de búsqueda de palabras clave, debido a que se incluye la pregunta.

Historia

Las interfaces prototipo Nl ya habían aparecido a finales de los sesenta y principios de los setenta.

  • SHRDLU , una interfaz de lenguaje natural que manipula bloques en un "mundo de bloques" virtual
  • Lunar , una interfaz en lenguaje natural para una base de datos que contiene análisis químicos de las rocas lunares del Apolo-11 por William A. Woods .
  • Chat-80 transformó las preguntas en inglés en expresiones de Prolog , que se evaluaron con la base de datos de Prolog. El código de Chat-80 se distribuyó ampliamente y formó la base de varias otras interfaces Nl experimentales. Una demostración en línea está disponible en el sitio web de LPA.
  • ELIZA , escrito en el MIT por Joseph Weizenbaum entre 1964 y 1966, imitaba a un psicoterapeuta y se operaba procesando las respuestas de los usuarios a los guiones. Sin utilizar casi ninguna información sobre el pensamiento o las emociones humanas, el guión de DOCTOR a veces proporcionaba una interacción sorprendentemente similar a la humana. Una demostración en línea está disponible en el sitio web de LPA.
  • Janus es también uno de los pocos sistemas que admite preguntas temporales.
  • Intelecto de Trinzic (formado por la fusión de AICorp y Aion).
  • El lenguaje de BBN se basa en la experiencia del desarrollo de los sistemas Rus e Irus .
  • IBM Languageaccess
  • Preguntas y respuestas de Symantec .
  • Datatalker de Natural Language Inc.
  • Loqui de BIM Systems.
  • Asistente de inglés de Linguistic Technology Corporation .

Desafíos

En el pasado, las interfaces de lenguaje natural han llevado a los usuarios a antropomorfizar la computadora, o al menos a atribuir más inteligencia a las máquinas de lo que se justifica. Por parte del usuario, esto ha llevado a expectativas poco realistas sobre las capacidades del sistema. Tales expectativas harán que sea difícil aprender las restricciones del sistema si los usuarios le atribuyen demasiada capacidad y, en última instancia, conducirán a la decepción cuando el sistema no funcione como se esperaba, como fue el caso en el invierno de la IA de los años setenta y ochenta.

Un artículo de 1995 titulado 'Interfaces de lenguaje natural para bases de datos: una introducción', describe algunos desafíos:

Adjunto de modificador
La solicitud "Enumere a todos los empleados de la empresa con licencia de conducir" es ambigua, a menos que sepa que las empresas no pueden tener licencias de conducir.
Conjunción y disyunción
"Enumere todos los solicitantes que viven en California y Arizona" es ambiguo a menos que sepa que una persona no puede vivir en dos lugares a la vez.
Resolución de anáfora
Resuelva lo que un usuario quiere decir con 'él', 'ella' o 'eso', en una consulta autorreferencial.

Otros objetivos a considerar de manera más general son la velocidad y eficiencia de la interfaz, en todos los algoritmos estos dos puntos son el punto principal que determinará si unos métodos son mejores que otros y por lo tanto tienen mayor éxito en el mercado. Además, la localización en sitios en varios idiomas requiere una consideración adicional, esto se basa en diferentes estructuras de oraciones y variaciones de sintaxis de idiomas entre la mayoría de los idiomas.

Finalmente, en cuanto a los métodos utilizados, el principal problema a resolver es la creación de un algoritmo general que pueda reconocer todo el espectro de diferentes voces, sin tener en cuenta la nacionalidad, el género o la edad. Las diferencias significativas entre las características extraídas, incluso de hablantes que dicen la misma palabra o frase, deben superarse con éxito.

Usos y aplicaciones

La interfaz de lenguaje natural da lugar a la tecnología utilizada para muchas aplicaciones diferentes.

Algunos de los principales usos son:

  • El dictado es el uso más común de los sistemas de reconocimiento automático de voz (ASR) en la actualidad. Esto incluye transcripciones médicas, dictados legales y comerciales y procesamiento de textos en general. En algunos casos, se utilizan vocabularios especiales para aumentar la precisión del sistema.
  • Los sistemas de comando y control , ASR, que están diseñados para realizar funciones y acciones en el sistema, se definen como sistemas de comando y control. Expresiones como "Abrir Netscape" y "Iniciar un nuevo xterm" harán precisamente eso.
  • Telefonía , algunos sistemas PBX / Voice Mail permiten que las personas que llaman digan comandos en lugar de presionar botones para enviar tonos específicos.
  • Wearables , debido a que las entradas son limitadas para los dispositivos portátiles, hablar es una posibilidad natural.
  • Médicas, discapacidades , muchas personas tienen dificultades para escribir debido a limitaciones físicas como lesiones por esfuerzo repetitivo (RSI), distrofia muscular y muchas otras. Por ejemplo, las personas con dificultades auditivas podrían usar un sistema conectado a su teléfono para convertir el habla de la persona que llama en texto.
  • Aplicaciones integradas , algunos teléfonos celulares nuevos incluyen reconocimiento de voz C&C que permiten expresiones como "llamar a casa". Este puede ser un factor importante en el futuro del reconocimiento automático de voz y Linux .
  • Desarrollo de software : un entorno de desarrollo integrado puede incorporar interfaces de lenguaje natural para ayudar a los desarrolladores.

A continuación, se nombran y definen algunas de las aplicaciones que utilizan el reconocimiento de lenguaje natural y, por lo tanto, tienen las utilidades integradas enumeradas anteriormente.

Ubicuidad

Ubiquity, un complemento para Mozilla Firefox , es una colección de comandos rápidos y sencillos derivados del lenguaje natural que actúan como mashups de servicios web, lo que permite a los usuarios obtener información y relacionarla con páginas web actuales y de otro tipo.

Wolfram Alpha

Wolfram Alpha es un servicio en línea que responde consultas fácticas directamente calculando la respuesta a partir de datos estructurados, en lugar de proporcionar una lista de documentos o páginas web que podrían contener la respuesta como lo haría un motor de búsqueda . Fue anunciado en marzo de 2009 por Stephen Wolfram y lanzado al público el 15 de mayo de 2009.

Siri

Siri es una aplicación de asistente personal inteligente integrada con el sistema operativo iOS . La aplicación utiliza procesamiento de lenguaje natural para responder preguntas y hacer recomendaciones.

Las afirmaciones de marketing de Siri incluyen que se adapta a las preferencias individuales de un usuario a lo largo del tiempo y personaliza los resultados, y realiza tareas como hacer reservas para cenar mientras intenta tomar un taxi.

Otros

  • Ask.com : la idea original detrás de Ask Jeeves (Ask.com) era la búsqueda tradicional de palabras clave con la capacidad de obtener respuestas a preguntas planteadas en un lenguaje natural y cotidiano. El Ask.com actual todavía admite esto, con soporte adicional para preguntas de matemáticas, diccionario y conversión.
  • Braina - Braina es una interfaz de lenguaje natural para el sistema operativo Windows que permite escribir o hablar oraciones en inglés para realizar una determinada acción o encontrar información.
Captura de pantalla de la interfaz clásica de GNOME DO.
  • GNOME Do : permite encontrar rápidamente diversos artefactos del entorno GNOME (aplicaciones, contactos de Evolution y Pidgin, marcadores de Firefox, artistas y álbumes de Rhythmbox, etc.) y ejecutar las acciones básicas en ellos (iniciar, abrir, enviar por correo electrónico, chatear, reproducir, etc.).
  • hakia - hakia era un motor de búsqueda de Internet. La empresa inventó una nueva infraestructura alternativa a la indexación que utilizaba el algoritmo SemanticRank, una combinación de soluciones de las disciplinas de semántica ontológica, lógica difusa, lingüística computacional y matemáticas. hakia cerró en 2014.
  • Lexxe : Lexxe era un motor de búsqueda de Internet que utilizaba el procesamiento de lenguaje natural para las consultas (búsqueda semántica). Las búsquedas se pueden realizar con palabras clave, frases y preguntas, como "¿Qué edad tiene Wikipedia?" Lexxe cerró sus servicios de motor de búsqueda en 2015.
  • Pikimal : Pikimal utilizó un lenguaje natural vinculado a las preferencias del usuario para hacer recomendaciones de búsqueda por plantilla. Pikimal cerró en 2015.
  • Powerset : el 11 de mayo de 2008, la compañía presentó una herramienta para buscar en un subconjunto fijo de Wikipedia utilizando frases conversacionales en lugar de palabras clave. El 1 de julio de 2008, fue comprado por Microsoft .
  • Q-go : la tecnología Q-go proporciona respuestas relevantes a los usuarios en respuesta a consultas en el sitio web de una empresa o en la intranet corporativa, formuladas en oraciones naturales o en la entrada de palabras clave por igual. Q-go fue adquirida por RightNow Technologies en 2011.
  • Yebol - Yebol era un motor de búsqueda de "decisiones" vertical que había desarrollado una plataforma de búsqueda semántica basada en el conocimiento. Los algoritmos infundidos de inteligencia humana de inteligencia artificial de Yebol agruparon y categorizaron automáticamente los resultados de búsqueda, los sitios web, las páginas y el contenido que presentaba en un formato indexado visualmente que está más alineado con la intención humana inicial. Yebol utilizó algoritmos de asociación, clasificación y agrupación para analizar palabras clave o páginas web relacionadas. Yebol integró procesamiento de lenguaje natural, sistemas complejos abiertos de ingeniería metasintética y algoritmos de máquina con conocimiento humano para cada consulta para establecer un directorio web que realmente 'aprende', utilizando algoritmos de correlación, agrupación y clasificación para generar automáticamente la consulta de conocimiento, que fue retenido y regenerado hacia adelante.

Ver también

Referencias