Opinión
MAP. Ricardo Meza Domínguez
México.- Y te preguntas que es el web scraping es una técnica para la extracción automatizada de datos en páginas web. Por tal motivo Elon Musk culpa a las startups de IA por estresar a Twitter al obtener sus datos (scraping).
El empresario Elon Musk culpa a las startups de IA por las nuevas medidas que limitan la lectura de tuits. Alega que estas startups estaban recopilando una gran cantidad de datos, lo que llevó a imponer límites temporales en la visualización de publicaciones. Cuando se tomó la medida, las cuentas no verificadas solo podían ver 600 publicaciones al día, las nuevas cuentas no verificadas estaban limitadas a 300.
Luego entonces las cuentas verificadas tenían un límite máximo de 6,000 visualizaciones al día. Posteriormente Musk anunció que pronto aumentarían a 800, 400 y 8000 respectivamente. “La decisión de bloquear el acceso para los usuarios sin iniciar sesión fue necesaria debido a la recopilación agresiva de datos por parte de múltiples organizaciones, lo que afectaba negativamente la experiencia del usuario.”
Esto abre otro debate, porque muchas startups de IA están haciendo “scraping” de datos en Internet y si los limitan, no podrán desarrollarse como ellas desearían. Google Workspace introduce experiencias de IA generativa para mejorar la productividad. Duet AI en Workspace puede revolucionar la forma en que las personas trabajan en equipo.
Estas herramientas de IA integradas en Docs y Gmail ayudan a superar el bloqueo del escritor, generar descripciones de trabajo y convertir notas de reuniones en correos electrónicos bien estructurados. Estas características se están probando en Google Workspace Labs y los usuarios interesados pueden unirse al programa de pruebas. Google refinará las experiencias antes de hacerlas disponibles a todo público. Las organizaciones empresariales también pueden preordenar Duet AI para Google Workspace Enterprise. Las nuevas características de IA generativa están siendo implementadas gradualmente en Workspace Labs.
Es cierto que algunas startups de IA utilizan técnicas de web scraping para recopilar datos de Internet, asi es el web scraping es una técnica automatizada para extraer información de sitios web. Sin embargo, el web scraping puede ser ilegal si se realiza sin el permiso del propietario del sitio web.
Aunque existe 10 herramientas de web scraping para extraer datos online de forma automática, pero estoy seguro de que en más de una ocasión has tenido que completar un listado Excel de forma manual copiando y pegando los datos de un directorio online o página web. Ha muchos nos ha ocurrido en cientos de ocasiones.
Pues bien, el web scraping es una técnica para la extracción automatizada de datos en páginas web. Y aunque en los entornos de programación se considera algo básica y rudimentaria es cierto que es una técnica de gran ayuda cuando nos enfrentamos a la típica labor de copia pega.
Los usos más comunes o prácticos para los que se utiliza son los siguientes:
1.Extraer datos de contacto como por ejemplo email
2.Extraer los títulos y contenidos de un blog
3.Crear un canal RSS de los contenidos de una página web
4.Seguir la evolución de precios de distintos productos