Meta a présenté SAM 3 et SAM 3D, la nouvelle génération de ses modèles de vision par ordinateur, conçus pour segmenter des objets à partir d’une simple description textuelle et générer des modèles 3D complets à partir d’une image 2D. Ces outils représentent une avancée significative pour les professionnels du design et de l’architecture, en facilitant des processus qui nécessitaient auparavant des logiciels spécialisés ou des scans complexes.
Ce que proposent SAM 3 et SAM 3D pour l’architectur
Segmentation par texte : du plan à l’interprétation visuelle
SAM 3 permet de sélectionner des éléments dans des images ou des vidéos en les décrivant simplement en langage naturel. Cela ouvre de nouvelles possibilités pour ceux qui travaillent avec de la documentation visuelle — comme des rendus, des photos de site ou des vidéos de chantier —, car cela permet d’isoler, de classer ou de mettre en évidence des composants constructifs sans avoir à les marquer manuellement.
Un architecte pourrait, par exemple, indiquer “garde-corps métalliques” ou “modules en béton” et le système identifierait toutes les occurrences pertinentes dans le fichier. Cela peut s’appliquer aux révisions de conception, aux audits visuels ou aux présentations axées sur certains éléments.
Reconstruction 3D à partir d’une imag
SAM 3D permet de transformer une photo en un modèle tridimensionnel complet, en inférant même les parties non visibles. Pour l’architecture, cela signifie qu’un objet ou un volume observé sous un seul angle peut rapidement devenir une forme 3D éditable ou de référence.
Qu’il s’agisse d’un élément de mobilier urbain, d’une sculpture dans l’environnement ou même d’une structure architecturale, cette fonctionnalité permet de générer des modèles de contexte ou d’inspiration sans dépendre des scans 3D traditionnels.
Corps humains en 3D pour une analyse spatiale
Une variante du modèle, SAM 3D Body, détecte et reconstruit des squelettes humains en 3D à partir d’images, ce qui peut être utile pour évaluer l’échelle et l’interaction des corps dans les espaces. Cela pourrait s’appliquer à la conception de mobilier, aux études ergonomiques ou aux simulations d’usage de l’espace public.
Un changement dans le flux de travail
Ces outils éliminent les barrières techniques dans des processus qui nécessitaient auparavant plusieurs étapes : modélisation à partir de zéro, scans physiques ou segmentation manuelle dans un logiciel d’édition. Les intégrer dans le flux de travail architectural peut représenter un gain de temps considérable dans :
- L’analyse de précédents architecturaux à partir de photographies
- La construction rapide de maquettes numériques de contexte
- La production de ressources visuelles pour des concours, des clients ou des appels d’offres
- La simulation d’usage et d’échelle humaine dans les projets
De plus, l’interface basée sur le langage naturel réduit la courbe d’apprentissage, permettant à des profils non techniques (comme les designers ou chefs de projet) de générer eux aussi des contenus visuels à partir d’images.
Vers une vision plus intelligente de l’environnement bâti
Avec SAM 3 et SAM 3D, l’interprétation visuelle automatisée fait un pas de plus, et se rapproche de la manière dont les humains perçoivent leur environnement : en reconnaissant objets, formes et relations spatiales sans dépendre d’étiquettes ou de catégories prédéfinies.
Pour l’architecture, cela représente un outil qui ne fait pas seulement gagner du temps sur les tâches techniques, mais qui élargit aussi les façons d’explorer, de documenter et de communiquer l’espace. Pourra-t-on un jour transformer une visite de chantier en modèle navigable simplement à partir de quelques photos? Avec des modèles comme ceux-ci, cette possibilité ne semble plus si lointaine.

