📄️ 🗂️ Introducción del PLN
Se entiende como un subcampo del machine learning el cual le permite a los ordenadores tener la capacidad de interpretar, manipular y controlar el lenguaje humano.
📄️ 🌎 Historia del PLN
Primeras apariciones del procesamiento de lenguaje natural
📄️ 📚 Natural Language Toolkit (NLTK)
🌟 Introducción
📄️ 🔑 Tokenización
🌟 Introducción
📄️ 🌱 Stemming y lematización
En el ámbito del procesamiento del lenguaje natural (PLN), dos métodos comunes para la normalización de textos que transforman datos de texto sin procesar en un formato legible para su procesamiento automático son el stemming y la lematización. Ambos métodos eliminan los afijos de las palabras flexionadas, dejando solo la raíz. Estos procesos eliminan caracteres al inicio y al final de las palabras. Las raíces resultantes, o palabras base, se utilizan para el procesamiento posterior. Aunque comparten esta similitud, la lematización y el stemming difieren en cómo simplifican las palabras a una forma base común.
📄️ 🔖 Etiquetado de partes del discurso
Esta es una herramienta que permite la asignación de etiquetas a cada una de las palabras que componen una oración, tal como lo pudieran ser un sustantivo, un verbo y un adjetivo. En este sentido, dicho proceso facilita la comprensión de la estructura de un texto, al igual que las relaciones existentes entre los elementos que lo componen.
📄️ 💰 Bag of words
Es un método que se utiliza para representar documentos como un conjunto de palabras, ignorando el orden y la estructura, enfocandose solo en la presencia de palabras. Con él se obtiene un vector numérico que representa la frecuencia de términos en el documento, permitiendo analizar la similitud entre distintos textos, por ejemplo, la clasificación de correos como spam según el conteo de palabras relevantes.
📄️ 🛑 Stop words
Las "stop words" son palabras que no aportan valor semántico relevante en el análisis de texto, por lo que se eliminan para mejorar la precisión de los algoritmos de procesamiento de lenguaje natural (PLN).
📄️ 🔎 Modelo TF-IDF
🌟 Introducción
📄️ ⛓️ N-Grams
Los N-Gramas son conjuntos de datos que refieren a secuencias contiguas de 'n' palabras provenientes de un texto. La importancia de ocupar dicha relación recae en que según la cantidad de 'n' elementos es posible contar con un mayor entendimiento del contexto del texto, como lo pudiera ser en análisis de sentimientos, al igual que hacer modelos estadísticos del lenguaje para predecir la probabilidad de que se presente cierta palabra o secuencia de palabras, entre otras funciones.
📄️ 🔎 Sentiment analysis
El análisis de sentimiento es una técnica utilizada para identificar el tono emocional presente en un texto. Su objetivo es examinar las palabras y frases empleadas en distintos textos con el fin de detectar el sentimiento que se expresa, que puede ser de tres tipos: positivo, negativo o neutro.
📄️ 📝 Text Summarization
El resumen automático de texto es una técnica de procesamiento del lenguaje natural (NLP) que condensa uno o más documentos largos en un resumen más breve y significativo. En este proyecto, implementaremos un resumen extractivo, utilizando Python con las bibliotecas BeautifulSoup para hacer scraping web y NLTK para realizar la tokenización y el análisis de frecuencia de palabras.
📄️ ☁️ Word cloud
Una nube de palabras (word cloud o tag cloud en inglés) es una representación visual de las palabras más frecuentes en un texto. Entre mayor sea la frecuencia de la palabra, mayor será el tamaño de la tipografía en la nube de palabras.
📄️ 🔍 Similitud de Textos
El análisis de similitud de textos permite medir qué tan relacionados están dos o más textos. Existen varios enfoques para realizar este análisis, desde técnicas lingüísticas basadas en modelos de lenguaje, como spaCy, hasta métodos estadísticos, como TF-IDF con cosine similarity.
📄️ 📊 Text Classification
🚩 Introducción
📄️ 🤖 Spacy
spaCy es una biblioteca de código abierto para Procesamiento del Lenguaje Natural (PLN) en Python. Ofrece herramientas avanzadas como etiquetado POS, reconocimiento de entidades nombradas (NER), análisis de dependencias, clasificación de texto, entre otras vistas.