🗂️ Introducción del procesamiento de lenguaje natural (PLN)
Se entiende como un subcampo del machine learning el cual le permite a los ordenadores tener la capacidad de interpretar, manipular y controlar el lenguaje humano.
Las técnicas de NLP se pueden aplicar en diversos tipos de tareas; como lo es el análisis de sentimientos, traducción automática, recuperación de información o incluso generación de texto.
Algunas de las aplicaciones de NLP son:
- Revisión de ortografía
- Reconocimiento de carácteres
- Lectores de pantalla para usuarios con discapacidades - Segmentación de texto
- Clasificación de Documentos
- Herramientas para lexicógrafos
- Sistemas de Diálogo
Terminología
- Tokenización: Es el proceso de dividir un texto en unidades más pequeñas llamadas tokens, generalmente utilizado para preparar los datos antes del modelado y análisis.
- Tokens: Suelen ser palabras, pero también pueden incluir signos de puntuación u otros elementos.
- Sintaxis: Se refiere a la estructura gramatical de las oraciones y cómo se organizan las palabras para formar frases coherentes.
- Análisis morfológico: Estudia el significado y la forma de las palabras, así como su relación en frases y oraciones.
- Pragmática: Analiza cómo el contexto influye en la interpretación del lenguaje.
- Etiquetado de partes del discurso: Es el proceso de asignar etiquetas gramaticales a cada token para identificar su función, como sustantivo, verbo, adjetivo, entre otros.
¿Por qué se considera complicado el Procesamiento de Lenguaje Natural?
Complejidad del lenguaje humano: El lenguaje humano radica en su irregularidad, llena de ambigüedades y matices. Las reglas gramaticales no siempre se aplican de forma estricta, ya que las expresiones varían según el contexto cultural y social.
Variabilidad en la forma de hablar: Existen distintos acentos, entonaciones y velocidades, complica el desarrollo de modelos precisos para el reconocimiento y comprensión del habla.
Ambigüedad en el lenguaje: Esta surge cuando las palabras y frases tienen múltiples significados según el contexto. El procesamiento del lenguaje natural (PLN) debe abordar esta ambigüedad para interpretar correctamente el significado intencionado.