Cómo la inteligencia humana está potenciando la IA de CrowdStrike

8 de abril de 2022

Hay un nuevo tropo en la industria de la seguridad y dice algo como esto: para mantenerse a salvo, necesita una solución impulsada por IA que pueda actuar por sí sola y, para hacerlo, debe mantener a esos molestos humanos alejados de ellos. él. Como profesional con un historial de llevar la IA a la ciberseguridad (no porque la arquitectura lo exija hoy en día, sino por su utilidad real para resolver problemas de seguridad), encuentro esta caracterización desconcertante.

Si esto le parece controvertido, tenga en cuenta que sólo lo es en la industria de la ciberseguridad. Esta caracterización no es en absoluto controvertida entre los investigadores de IA y aprendizaje automático (ML). E incluso en otras industrias, aprovechar la experiencia humana es completamente normal. ¿Cuánto es así? Puede adquirir servicios para que humanos etiqueten sus conjuntos de datos. Algunas empresas incluso aprovechan los procesos de colaboración colectiva para obtener etiquetas de los usuarios habituales. Probablemente ya hayas contribuido a ese esfuerzo al demostrar que no eres un robot en un sitio web.

¿Cómo llegó a ser generalizada esta postura de seguridad misantrópica? Hay dos falacias en juego. Si eres una persona que ve el vaso medio lleno, podrías llamar a esos conceptos erróneos. Pero si te concentras en la mitad superior del vaso, podrías considerar que esas son tergiversaciones. En primer lugar, la inteligencia artificial no es, de hecho, inteligente. Tenga una conversación con su altavoz inteligente para asegurarse de ese hecho. La IA es un conjunto de algoritmos y técnicas que a menudo produce resultados útiles. Pero a veces fallan de maneras extrañas y poco intuitivas. Incluso tiene su propia superficie de ataque distintiva que los adversarios pueden aprovechar si se los deja desprotegidos. Tratar a la IA como la panacea que soluciona los problemas de nuestra industria es peligroso, como comenté el año pasado en una charla invitada al taller sobre Robustez de los sistemas de IA contra ataques adversarios.

En segundo lugar, todos todavía estamos cansados de los días de la firma. En aquel entonces, se implementaron firmas, inicialmente detuvieron las amenazas, luego comenzaron a pasar por alto nuevas amenazas, lo que llevó a los humanos a escribir nuevas firmas y reiniciar el ciclo al día siguiente. Naturalmente, este enfoque es una propuesta perdida: este modelo no sólo es puramente reactivo, sino que su velocidad también está claramente limitada por el tiempo de respuesta humana. Por supuesto, no es así como se integran los modelos de IA para prevenir amenazas. No se necesita interacción humana para que un modelo de IA en la plataforma CrowdStrike Falcon® detenga una amenaza en seco. CrowdStrike utiliza específicamente IA para detectar amenazas que aún no se han concebido, sin necesidad de actualizaciones.

¿Qué se necesita para entrenar un modelo de IA que pueda realizar tal hazaña de manera confiable? Lo más importante es que se necesitan datos. Y mucho de ello. CrowdStrike Security Cloud procesa más de un billón de eventos de sensores de terminales por día. Para poner esto en perspectiva, una resma de 500 páginas de papel de impresora de oficina tiene aproximadamente 50 milímetros de grosor (aproximadamente 2 pulgadas). Un billón de páginas se acumularían a unos 100.000 kilómetros de altura, o aproximadamente 60.000 millas. Esas son millas suficientes para obtener el estatus Gold todos los días en la mayoría de las aerolíneas, pero le tomaría alrededor de cuatro días volar esta distancia a una velocidad de crucero de avión normal. Y pasados esos cuatro días, la pila habrá llegado a la luna.

Sin embargo, lo esencial es que esta pila metafórica no sólo sea alta. CrowdStrike Security Cloud también tiene una gran presencia que cubre facetas como seguridad de terminales, seguridad en la nube, protección de identidad, inteligencia sobre amenazas y mucho más. Para cada una de estas facetas, procesamos registros de datos complejos y matizados. Toda esta información se contextualiza y correlaciona en nuestro CrowdStrike Threat Graph® patentado, una gran base de datos de gráficos distribuidos que desarrollamos.

La plataforma Falcon fue diseñada desde cero como un sistema nativo de la nube para procesar eficazmente este volumen de datos de manera significativa. Nada de esto es posible en un electrodoméstico. Y nada de esto es posible con las soluciones de nube híbrida, es decir, aquellas nubes que son simplemente pilas de dispositivos montados en bastidor administrados por el proveedor. Esto tiene tanto sentido como transmitir vídeo a través de Internet desde una videograbadora.

Más datos nos permiten detectar señales más débiles. Imagínese trazar la latitud y longitud de ciudades de EE. UU. en papel cuadriculado. Inicialmente, verá algunos puntos dispersos al azar. Después de hacer esto para una gran cantidad de ciudades, una forma familiar emergerá lentamente de una nube de puntos. Y esa sería la forma de Estados Unidos. Sin embargo, esa forma nunca se habría hecho evidente si todos hubieran usado un papel cuadriculado “local” para trazar un puñado de ciudades en sus alrededores.

Entonces, ¿cómo encajan los humanos en este panorama? Si hay tanta información acumulada en nuestra metafórica pila de papel de impresora que ni siquiera un avión podría seguir su ritmo, ¿cómo tienen los humanos la posibilidad de luchar para generar un impacto?

Hay dos maneras. En primer lugar, apilar las hojas no es la forma más inteligente de organizarlas. Colocarlos uno al lado del otro da como resultado un cuadrado de papel de aproximadamente 250 veces 250 kilómetros (aproximadamente 150 millas por lado). Esto es mucho más manejable: se podría cartografiar un área como ésta. Si en cambio organizamos las resmas de papel en un cubo, sería aproximadamente un cubo de 180×180×180 metros (o unos 600 pies por arista). Observe que ahora son metros, no kilómetros, lo que lo hace mucho más compacto y listo para ser trazado. La conclusión es que el problema se vuelve más manejable al organizar los datos en más dimensiones y considerar las adyacencias. Esa es la misión de nuestra nube y Threat Graph.

En segundo lugar, no todos los datos son iguales. Existe otro tipo de datos al que los humanos pueden contribuir. A este tipo de datos lo llamamos verdad sobre el terreno y tiene un impacto significativo en el entrenamiento de modelos de IA. La verdad fundamental es el tipo de datos que describe cómo queremos que se comporte un modelo de IA bajo cierta entrada. Para nuestra pila de papel metafórica, un ejemplo de verdad fundamental sería si una hoja de papel corresponde a una amenaza (por ejemplo, una hoja de color rojo) o a actividades benignas (una hoja de color verde). Si organiza sus datos de manera significativa, como se describió anteriormente, solo necesitará unas pocas hojas de colores para deducir también información de resmas enteras de papel. Imagina que sacas una hoja de una resma en algún lugar de nuestro cubo de papel y resulta que es roja. Es probable que las otras hojas de esa resma también sean rojas. Y algunas de las resmas adyacentes también tendrán papel rojo en su mayoría. Así es como aprenden ciertos tipos de IA: descubren cómo reaccionar ante entradas similares (adyacentes) basándose en datos reales; esto se llama aprendizaje supervisado.

El aprendizaje supervisado es una manera poderosa de crear sistemas de clasificación altamente precisos, es decir, sistemas que tienen altas tasas de verdaderos positivos (que detectan amenazas de manera confiable) y bajas tasas de falsos positivos (que rara vez causan alarmas sobre comportamientos benignos). No todo el aprendizaje necesita realizarse utilizando la verdad básica (el dominio del aprendizaje no supervisado se ocupa de otras técnicas, por ejemplo). Pero tan pronto como llegue el momento de evaluar si dicho sistema de IA funciona según lo previsto, también necesitará información sobre el terreno.

Por último, dado que la verdad sobre el terreno suele ser un bien escaso, más raro que otros datos, otras técnicas combinan estos dos enfoques. En el aprendizaje semisupervisado, una IA se entrena con grandes cantidades de datos de forma no supervisada y luego se ajusta mediante un entrenamiento supervisado utilizando menos datos reales. En el aprendizaje autosupervisado, la IA toma pistas de la estructura de los propios datos.

En CrowdStrike, diseñamos nuestros sistemas para maximizar la generación de verdad sobre el terreno. Por ejemplo, cada vez que los cazadores de amenazas CrowdStrike Falcon® OverWatch™ encuentran un adversario en la red, esos hallazgos se convierten en una nueva verdad. De manera similar, cuando los expertos de OverWatch evalúan una actividad sospechosa como benigna, también se convierte en verdad. Esos puntos de datos ayudan a entrenar o evaluar sistemas de inteligencia artificial. Generamos datos de este tipo a escala todos los días utilizando nuestro punto de vista en la nube. Esto nos permite entrenar mejores modelos y construir mejores sistemas con características de rendimiento mejor comprendidas.

Los sistemas de inteligencia artificial también pueden detectar incidentes en los que la verdad sobre el terreno es más escasa y existe un mayor nivel de incertidumbre. Si bien la IA aún puede prevenir amenazas en esas circunstancias sin demora, los humanos pueden revisar los datos marcados más tarde para aumentar la cantidad de información disponible donde más importa. Alternativamente, otros medios pueden proporcionar datos adicionales, como una detonación dentro del entorno limitado de análisis de malware CrowdStrike CROWDSTRIKE FALCON® INTELLIGENCE™ para observar comportamientos de amenazas en un entorno controlado. Estas soluciones se basan en un paradigma llamado aprendizaje activo.

El aprendizaje activo es una forma útil de utilizar el recurso limitado de la atención humana donde más importa. Las decisiones de la IA no se estancan: la IA seguirá analizando y deteniendo las amenazas. A esto lo llamamos el "bucle rápido". El equipo de Falcon OverWatch, entre otros, analiza lo que nuestros sistemas de IA muestran y proporciona una disposición experta, que incorporamos a nuestros algoritmos de IA. A lo largo de esta ruta, nuestros modelos de IA reciben un flujo constante de retroalimentación sobre dónde tuvieron éxito y dónde detectamos y detuvimos nuevos ataques por otros medios. La IA aprende de esta retroalimentación y la incorpora en futuras detecciones. A esta parte la llamamos "el bucle largo". Como resultado, nuestra IA mejora constantemente a medida que ingresan nuevos datos al sistema.

Demostramos que este enfoque es superior cada día en el campo cuando repelemos a los adversarios de las redes de nuestros clientes, prevenimos el robo de datos y garantizamos que el elemento vital de las empresas a las que servimos (su información y propiedad intelectual) esté protegido.

Además, tenemos un historial de pruebas riguroso de numerosas evaluaciones de terceros independientes realizadas por organizaciones de pruebas líderes como AV-Comparatives, SE Labs y MITRE. Los proveedores centrados en la IA tienden a evitar las pruebas que penalizan los falsos positivos, pero no CrowdStrike. Los informes públicos de organizaciones de pruebas independientes dan fe del compromiso de CrowdStrike con la transparencia, especialmente ahora que la IA se está convirtiendo en una tecnología omnipresente para trabajar con datos.

Además de las pruebas, CrowdStrike también fue el primer proveedor de NGAV en hacer que nuestra tecnología esté disponible en VirusTotal para el escrutinio público, y proporcionamos nuestra tecnología fácilmente para que la comunidad de investigación la utilice en el análisis híbrido. La transparencia es un principio central de nuestro enfoque de privacidad por diseño: CrowdStrike diseña sus ofertas con la transparencia como valor fundamental para que los clientes puedan ver qué se procesa exactamente, tomar decisiones sobre cómo se procesa y seleccionar períodos de retención.

La IA se está convirtiendo en una herramienta cada vez más común para detener las amenazas cibernéticas, pero es importante mirar más allá de la mera presencia de un algoritmo de IA en algún lugar del flujo de datos. Es fundamental medir la eficacia de un sistema de IA entendiendo de dónde provienen los datos, incluida la información necesaria sobre el terreno. La Inteligencia Artificial sólo puede aprender si nuevos hechos ingresan constantemente al sistema a gran escala, y los humanos involucrados son el sello distintivo de un sistema de IA bien diseñado.

Blog

Cómo la inteligencia humana está potenciando la IA de CrowdStrike